当前位置：首页 > news >正文

大模型学习路线（一）：Transformer架构篇

news 2026/6/12 18:38:48

🎯 学习目标

彻底掌握 Transformer 的每一个组件细节，理解从 Standard Attention 到现代 LLM（如 Llama, Deepseek）架构的演进原因，并能手写核心算法代码。

粒度对比：
- Word：词表大、OOV（未登录词）问题严重。
- Char：序列过长、语义丢失。
- Subword (子词)：LLM主流，完美平衡了词表大小与语义表达。
主流算法：
- BPE (Byte Pair Encoding)：通过合并高频字符对生成词表。（面试常考：手推合并过程）
- BBPE (Byte-level BPE)：扩展到字节级别，解决多语言和特殊字符问题（GPT-2/3/4, Llama 均使用）。
🔥 秋招考点：
- Q: 为什么大模型不擅长处理字符串反转或简单算术？
- A: 分词导致字符被合并（如 "123" 可能是一个 token），模型看不到“字符”级别的内部结构。
- Code: 手写一个简单的 BPE 合并算法。

基础：OneHot（稀疏）vs Word2Vec（稠密）。虽 LLM 直接训练 Embedding 层，但需理解 Word2Vec 的负采样思想。
位置编码 (Positional Encoding)：
- 绝对位置：Sinusoidal（正弦函数）、可学习参数（BERT）。
- 相对位置：RoPE (旋转位置编码)、ALiBi (线性偏差)。
🔥 秋招考点：
- RoPE (必考)：理解通过绝对位置编码实现相对位置信息的数学原理（复数旋转），以及它如何保持向量模长不变。
- 长度外推：为什么直接外推效果差？理解位置内插 (Interpolation) 与进制转换法的区别。

基础公式：

$$Attention(Q,K,V) = softmax(\frac{QK^{\top}}{\sqrt{d_{k}}})V$$
- Q: 为什么要除以 $$\sqrt{d_k}$$？（A: 防止点积过大导致 Softmax 梯度消失）。
进阶变体 (现代 LLM 标配)：
- MHA：标准多头注意力。
- KV Cache：推理加速关键，缓存 K 和 V 避免重复计算，显存占用大户。
- MQA (Multi-Query)：所有头共享一组 KV，大幅减显存。
- GQA (Grouped-Query)：Llama 2/3 采用，几组头共享一组 KV，平衡性能与显存。
- MLA (Multi-Head Latent Attention)：Deepseek-V2/V3 提出，低秩压缩 KV，极致显存优化。
🔥 秋招考点：
- Code: 手写 Scaled Dot-Product Attention 或 MultiHeadAttention。
- 计算: 给定参数（层数、维度、上下文长度），计算 KV Cache 显存占用。

FFN 激活函数：
- SwiGLU：目前主流（Llama），结合 GLU 门控与 Swish，通常参数量调整为原 FFN 的 2/3。
归一化 (Normalization)：
- LayerNorm：NLP 样本长度可变，统计 Batch 均值无意义，故用 LN。
- RMSNorm：Llama 使用，去中心化，计算更快。
- 位置：Pre-Norm（主流，训练稳定） vs Post-Norm（BERT，潜力高但难收敛）。

Greedy Search：局部最优，易重复。
Beam Search：束搜索，平衡质量与多样性。
Sampling (采样)：
- Top-K：截断低概率词。
- Top-P (Nucleus)：动态截断，累积概率达 P 停止。
- Temperature：调节分布平滑度（<1 保守，>1 创造性）。