当前位置: 首页 > news >正文

机器学习与模式识别 第十七章 Transformers LLMs 考点压缩

第十七章:Transformers & LLMs — 知识点笔记

综合来源:Lecture 17 PDF(35页)、课堂笔记(CSDN)


占位图

17.1 LLM概述

什么是LLM

  • Large:参数量巨大(数十亿→万亿级)
  • Language Model:预测语言(下一词)
  • 预测下一个词 = 回答问题 + 讲故事 + 完成任务 =生成式AI

17.2 Tokenization ⭐

Token vs Word

  • Token = 词、词缀、标点、特殊字符
  • “The smallest tokenizer!” → [“The”, " small", “est”, " token", “izer”, “!”]
  • 优势:允许处理新词/拼写错误/数字

BPE(Byte Pair Encoding)⭐

  1. 初始token集=所有字符+数字+特殊字符
  2. 统计语料中最高频的token对→合并为新token
  3. 重复→直到达到目标词汇量
  4. 例:Llama-2: 32K → Llama-3:128Ktokens

17.3 因果语言建模 ⭐⭐

Causal Language Modeling

P(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next tokencontext tokens)

  • 条件于之前的所有token(有序上下文)
  • 一次生成一个token
  • “The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大

自回归解码(Auto-Regressive Decoding)

  1. 计算下一token的概率分布
  2. 选择下一token(最大概率/采样top-k)
  3. 将选中token追加到上下文
  4. 重复→直到<stop>token

一次一个token→逐步生成完整文本!


17.4 Decoder Transformer ⭐⭐

Encoder的问题

  • 标准Self-Attention→所有token互相可见→生成时"偷看"答案
  • 不适合因果(自回归)生成

Masked Attention(因果掩码)

  • 只允许关注当前及之前的token(不能看到未来)
  • 上三角掩码→−∞-\infty→Softmax后权重为0
    α=SoftMax(QKTDk+M)\boldsymbol{\alpha} = \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} + \mathbf{M}\right)α=SoftMax(DkQKT+M)

Mij={0i≥j−∞i<j\mathbf{M}_{ij} = \begin{cases} 0 & i \geq j \\ -\infty & i < j \end{cases}Mij={0iji<j

Decoder展开

  • 每次新token加入→整个序列重新计算
  • 但可缓存之前的K,V→KV Cache加速
  • 最后一个token计算量最大(需attend所有历史)

17.5 Llama-3架构 ⭐

RMSNorm → Grouped Query Attention (+RoPE) → +残差 → RMSNorm → FFN with SwiGLU → +残差
组件说明
RMSNormLayerNorm的简化版→训练稳定
GQAGrouped Query Attention→效率+表达力
RoPERotary Position Embedding→融入Q,K的旋转位置编码
SwiGLU门控FFN激活函数
残差连接梯度直通

规模(Llama-3 70B)

  • Hidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 8

17.6 Encoder-Decoder vs Decoder-Only

架构结构代表模型
Encoder-Only双向AttentionBERT
Encoder-Decoder编码+解码+Cross-Attention原版Transformer, T5, BART
Decoder-Only仅Masked AttentionGPT系列, Llama(现代主流)

LLM演进时间线

2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)

笔记中的图片索引

序号图片内容描述来源位置
图1BPE构建过程Lecture 17 第7页
图2自回归解码逐步生成Lecture 17 第13-18页
图3Masked Attention因果掩码Lecture 17 第24-25页
图4Llama-3架构图Lecture 17 第31页
图5Encoder-Decoder结构Lecture 17 第33页
图6LLM演进时间线Lecture 17 第34页

笔记整理时间:2026年6月30日

http://www.gsyq.cn/news/1640788.html

相关文章:

  • VLC for Android:打造跨平台全能媒体播放器的终极指南
  • 设计模式——抽象工厂
  • 3分钟掌握Android投屏神器:scrcpy让你的手机屏幕完美显示在电脑上
  • Plone系统卸载指南:PSE2010环境下安全Unload操作详解
  • MAA明日方舟助手:5个核心功能实现游戏日常自动化终极指南
  • 机器学习与模式识别 第十六章 Transformers 考点压缩
  • PG 日报|PG20 计划移除老旧 contrib 模块
  • 数据产业服务分类(31)——数据产业——数字技术与数据技术
  • SAP学习笔记 - MM模块04 - 采购流程基础,采购组织和工厂的常见关系,供应商主数据的3个层次,账户组,字段选择-账户组/采购组织/事务代码,合伙伙伴,MK04履历,MK05冻结,MK06删除
  • 【收藏必看2026版】大厂疯狂押注AI!大模型高薪风口,小白/程序员零基础入门指南
  • Ultralytics:解读Bottleneck模块
  • 3分钟掌握三星固件下载神器:Bifrost跨平台解决方案完全指南
  • Kafka 消息重试设计:别让失败消息原地打转
  • PIC18F4680与DC-DC降压转换器的数字电源管理方案
  • STM32L433RC与DC-DC降压转换器设计实战
  • 5分钟掌握Axure RP中文界面:完整汉化包安装与配置指南
  • 数学基础速查——大模型工程师的“最小够用集“
  • Si4732与PIC18F97J94数字广播接收方案设计与优化
  • 终极便携式Windows C/C++开发工具链:w64devkit完全指南
  • 2026最新AI Agent从零落地实战指南!小白程序员专属企业级开发教程
  • 3步解锁网易云音乐:ncmdump工具让NCM格式不再困扰你
  • Mi-Create终极指南:免费可视化小米手表表盘制作工具完整教程
  • 技术革命:EmojiOne Color如何重塑表情符号的跨平台标准
  • 3步快速上手FanControl:Windows风扇智能控制终极指南
  • 全球小程序开发工具:餐宝盈/BBWEYY/比文云/Siter.io/Weblium实测对比,含零代码SAAS、AI编程、源码定制交付
  • 量子通信产业化:从保密通信到全域应用,重构信息安全底层体系
  • C++语言基础3:用户自定义类型“class”详细讲解
  • 【Qt】控件(二) (geometry及与frameGeometry的区别)
  • 英语单词测试
  • 从零开始学AI:2周上手,半年做项目,1年工程落地(收藏版)