机器学习与模式识别 第十七章 Transformers LLMs 考点压缩
第十七章:Transformers & LLMs — 知识点笔记
综合来源:Lecture 17 PDF(35页)、课堂笔记(CSDN)
占位图
17.1 LLM概述
什么是LLM
- Large:参数量巨大(数十亿→万亿级)
- Language Model:预测语言(下一词)
- 预测下一个词 = 回答问题 + 讲故事 + 完成任务 =生成式AI
17.2 Tokenization ⭐
Token vs Word
- Token = 词、词缀、标点、特殊字符
- “The smallest tokenizer!” → [“The”, " small", “est”, " token", “izer”, “!”]
- 优势:允许处理新词/拼写错误/数字
BPE(Byte Pair Encoding)⭐
- 初始token集=所有字符+数字+特殊字符
- 统计语料中最高频的token对→合并为新token
- 重复→直到达到目标词汇量
- 例:Llama-2: 32K → Llama-3:128Ktokens
17.3 因果语言建模 ⭐⭐
Causal Language Modeling
P(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next token∣context tokens)
- 条件于之前的所有token(有序上下文)
- 一次生成一个token
- “The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大
自回归解码(Auto-Regressive Decoding)
- 计算下一token的概率分布
- 选择下一token(最大概率/采样top-k)
- 将选中token追加到上下文
- 重复→直到
<stop>token
一次一个token→逐步生成完整文本!
17.4 Decoder Transformer ⭐⭐
Encoder的问题
- 标准Self-Attention→所有token互相可见→生成时"偷看"答案
- 不适合因果(自回归)生成
Masked Attention(因果掩码)
- 只允许关注当前及之前的token(不能看到未来)
- 上三角掩码→−∞-\infty−∞→Softmax后权重为0
α=SoftMax(QKTDk+M)\boldsymbol{\alpha} = \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} + \mathbf{M}\right)α=SoftMax(DkQKT+M)
Mij={0i≥j−∞i<j\mathbf{M}_{ij} = \begin{cases} 0 & i \geq j \\ -\infty & i < j \end{cases}Mij={0−∞i≥ji<j
Decoder展开
- 每次新token加入→整个序列重新计算
- 但可缓存之前的K,V→KV Cache加速
- 最后一个token计算量最大(需attend所有历史)
17.5 Llama-3架构 ⭐
RMSNorm → Grouped Query Attention (+RoPE) → +残差 → RMSNorm → FFN with SwiGLU → +残差| 组件 | 说明 |
|---|---|
| RMSNorm | LayerNorm的简化版→训练稳定 |
| GQA | Grouped Query Attention→效率+表达力 |
| RoPE | Rotary Position Embedding→融入Q,K的旋转位置编码 |
| SwiGLU | 门控FFN激活函数 |
| 残差连接 | 梯度直通 |
规模(Llama-3 70B)
- Hidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 8
17.6 Encoder-Decoder vs Decoder-Only
| 架构 | 结构 | 代表模型 |
|---|---|---|
| Encoder-Only | 双向Attention | BERT |
| Encoder-Decoder | 编码+解码+Cross-Attention | 原版Transformer, T5, BART |
| Decoder-Only | 仅Masked Attention | GPT系列, Llama(现代主流) |
LLM演进时间线
2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | BPE构建过程 | Lecture 17 第7页 |
| 图2 | 自回归解码逐步生成 | Lecture 17 第13-18页 |
| 图3 | Masked Attention因果掩码 | Lecture 17 第24-25页 |
| 图4 | Llama-3架构图 | Lecture 17 第31页 |
| 图5 | Encoder-Decoder结构 | Lecture 17 第33页 |
| 图6 | LLM演进时间线 | Lecture 17 第34页 |
笔记整理时间:2026年6月30日
