Transformer

2017 年论文《Attention Is All You Need》提出，彻底改变了 NLP 领域。

核心组件： - Self-Attention：每个 Token 关注序列中所有其他 Token - Multi-Head Attention：并行多组注意力头 - Feed-Forward Network：逐位置的全连接层 - Positional Encoding：注入位置信息

编码器-解码器结构： - Encoder-only：BERT（适合理解任务） - Decoder-only：GPT/Claude（适合生成任务） - Encoder-Decoder：T5（适合翻译/摘要）