Transformer
Transformer Architecture基于自注意力机制的神经网络架构,是 GPT、Claude、Gemini 等所有主流 LLM 的基础结构。
# 架构
# 注意力机制
Transformer
2017 年论文《Attention Is All You Need》提出,彻底改变了 NLP 领域。
核心组件: - Self-Attention:每个 Token 关注序列中所有其他 Token - Multi-Head Attention:并行多组注意力头 - Feed-Forward Network:逐位置的全连接层 - Positional Encoding:注入位置信息
编码器-解码器结构: - Encoder-only:BERT(适合理解任务) - Decoder-only:GPT/Claude(适合生成任务) - Encoder-Decoder:T5(适合翻译/摘要)