当前位置: 首页 > news >正文

大模型学习路线(一):Transformer架构篇

🎯 学习目标

彻底掌握 Transformer 的每一个组件细节,理解从 Standard Attention 到现代 LLM(如 Llama, Deepseek)架构的演进原因,并能手写核心算法代码。

第一阶段:输入处理 (Input Representation)

1. 分词 (Tokenization)

  • 粒度对比

    • Word:词表大、OOV(未登录词)问题严重。

    • Char:序列过长、语义丢失。

    • Subword (子词)LLM主流,完美平衡了词表大小与语义表达。

  • 主流算法

    • BPE (Byte Pair Encoding):通过合并高频字符对生成词表。(面试常考:手推合并过程)

    • BBPE (Byte-level BPE):扩展到字节级别,解决多语言和特殊字符问题(GPT-2/3/4, Llama 均使用)。

  • 🔥 秋招考点

    • Q: 为什么大模型不擅长处理字符串反转或简单算术?

    • A: 分词导致字符被合并(如 "123" 可能是一个 token),模型看不到“字符”级别的内部结构。

    • Code: 手写一个简单的 BPE 合并算法。

2. 词嵌入 (Embedding) & 位置编码

  • 基础:OneHot(稀疏)vs Word2Vec(稠密)。虽 LLM 直接训练 Embedding 层,但需理解 Word2Vec 的负采样思想。

  • 位置编码 (Positional Encoding)

    • 绝对位置:Sinusoidal(正弦函数)、可学习参数(BERT)。

    • 相对位置RoPE (旋转位置编码)、ALiBi (线性偏差)。

  • 🔥 秋招考点

    • RoPE (必考):理解通过绝对位置编码实现相对位置信息的数学原理(复数旋转),以及它如何保持向量模长不变。

    • 长度外推:为什么直接外推效果差?理解位置内插 (Interpolation) 与进制转换法的区别。


第二阶段:核心组件 (Core Architecture)

1. 注意力机制 (Attention Mechanism)

  • 基础公式

    $$Attention(Q,K,V) = softmax(\frac{QK^{\top}}{\sqrt{d_{k}}})V$$

    • Q: 为什么要除以 $$\sqrt{d_k}$$?(A: 防止点积过大导致 Softmax 梯度消失)。
  • 进阶变体 (现代 LLM 标配)

    • MHA:标准多头注意力。

    • KV Cache:推理加速关键,缓存 K 和 V 避免重复计算,显存占用大户。

    • MQA (Multi-Query):所有头共享一组 KV,大幅减显存。

    • GQA (Grouped-Query):Llama 2/3 采用,几组头共享一组 KV,平衡性能与显存。

    • MLA (Multi-Head Latent Attention):Deepseek-V2/V3 提出,低秩压缩 KV,极致显存优化。

  • 🔥 秋招考点

    • Code: 手写 Scaled Dot-Product AttentionMultiHeadAttention

    • 计算: 给定参数(层数、维度、上下文长度),计算 KV Cache 显存占用。

2. 前馈、残差与归一化

  • FFN 激活函数

    • SwiGLU:目前主流(Llama),结合 GLU 门控与 Swish,通常参数量调整为原 FFN 的 2/3。
  • 归一化 (Normalization)

    • LayerNorm:NLP 样本长度可变,统计 Batch 均值无意义,故用 LN。

    • RMSNorm:Llama 使用,去中心化,计算更快。

    • 位置Pre-Norm(主流,训练稳定) vs Post-Norm(BERT,潜力高但难收敛)。


第三阶段:架构与解码 (Architecture & Decoding)

1. 模型架构分类

  • Encoder-only (BERT):双向注意力,擅长理解。

  • Encoder-Decoder (T5):适合翻译。

  • Decoder-only (GPT, Llama)主流,单向注意力 (Causal Mask),Zero-shot 能力强。

2. 混合专家模型 (MoE)

  • 原理:Router 为每个 Token 选择 Top-K 个 Expert(FFN)。

  • 核心优势稀疏激活——增加参数量(知识容量)的同时,保持推理 FLOPs 不变。

  • 关键问题:负载均衡(Load Balancing),需引入辅助损失(Auxiliary Loss)。

3. 解码策略

  • Greedy Search:局部最优,易重复。

  • Beam Search:束搜索,平衡质量与多样性。

  • Sampling (采样)

    • Top-K:截断低概率词。

    • Top-P (Nucleus):动态截断,累积概率达 P 停止。

    • Temperature:调节分布平滑度(<1 保守,>1 创造性)。

http://www.gsyq.cn/news/128440.html

相关文章:

  • 连接管理艺术-底层架构的性能奥秘
  • Linly-Talker项目维护频率与长期发展预期
  • 由南京导航失灵看人机环境系统智能
  • Linly-Talker如何平衡生成速度与画质清晰度?
  • 基于springboot+vue3的企业人事管理系统设计与实现
  • 【理解“Collection存储Union区域后能分两次Resize写入单元格”的核心原因】
  • Linly-Talker在远程办公会议中的虚拟参会应用
  • Linly-Talker生成视频帧率稳定性测试结果公布
  • 基于SpringBoot+Vue的家具销售商城系统设计与实现
  • 宠物商城网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】
  • 熟悉SFF-8472,SFF-8077i,CFP,MSA,CFP2等光模块协议
  • 49_Spring AI 干货笔记之 OpenAI SDK 图像生成(官方)
  • Linly-Talker在在线托福雅思培训中的口语陪练应用
  • 中小企业如何低成本搭建数字人服务?Linly-Talker实战案例
  • Linly-Talker训练数据来源是否公开?伦理争议回应
  • Linly-Talker与LangChain整合构建知识库问答数字人
  • 市场营销科学 101:如何使用合成控制分析基于地理的活动
  • 企业级动物领养平台管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】
  • Linly-Talker能否识别方言输入?ASR模块能力测试
  • Linly-Talker在博物馆导览中的沉浸式应用案例
  • +高校线上心理咨询室设计与实现pf信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】
  • 计算机毕业设计springboot软件学院体育设备管理系统 基于SpringBoot的软件学院体育器材全生命周期管理平台 软件学院智慧体育资产运营系统的设计与实现
  • 10种被动收入来源,帮助开发者度过裁员难关
  • Linly-Talker如何实现唇形与语音精准同步?技术揭秘
  • Linly-Talker在保险产品讲解中的标准化应用
  • 【华为 ICT HCIA eNSP 习题汇总】——题目集26
  • Linly-Talker支持自定义动作库吗?高级控制参数介绍
  • LLM 采样参数详解:Temperature, Top-k 与 Top-p
  • Linly-Talker能否输出透明通道视频?后期合成支持情况
  • 11.CSS属性 (@property)