第06篇:Transformer 解剖——Decoder-only 是怎么炼成的
前置知识:第05篇(CNN/RNN/Attention)/ 第02篇(归一化与激活函数)
引言:全文最核心的一篇
如果说整个专栏是一棵技术树,那这一篇就是树干。
Transformer 架构是一切大模型的基石。GPT、LLaMA、Qwen、ChatGLM——名字五花八门,但核心都是一样的 Decoder-only 架构。如果你只能精读一篇,那就是这一篇。
这一篇做什么:
- 拆解从输入到输出的完整前向流程
- 从零搭建一个 Mini-GPT2
- 解释每个组件的设计选择和工程细节
- 用参数公式验证你的模型到底"大"在哪里
一、从 Encoder-Decoder 到 Decoder-only
1.1 原始 Transformer
2017 年的《Attention Is All You Need》提出了 Encoder-Decoder 架构:
输入序列 → Encoder(双向注意力)→ 编码表示