当前位置: 首页 > news >正文

从词向量到大模型:NLP 技术演进浅记

斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识:感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行,聚焦于自然语言处理领域,重点围绕两大核心内容展开:(1)词的分布式表示(即 embedding)——用一组浮点数向量代表一个词的含义;(2)序列生成。从词的分布式表示到序列生成,再到现代大模型架构,可清晰看到一条完整的技术演进脉络。

1. 书内内容

1.1 同义词

作为词义表达的基础方式,其概念早于现代 NLP,20 世纪 50 年代随着自然语言处理领域萌芽开始,最初通过同义词互释的方式表达词义,为后续词的向量表示奠定基础,核心是通过相似语义关联理解词的含义。

1.2 上下文共现词的概率统计(PPMI)

基于共现矩阵与点互信息(PMI)。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟,基于"一个词的含义可由其周围的上下文词决定"这一核心概念,通过统计目标词与上下文词的共现概率,结合 PPMI 处理,得到词的分布式表示,属于传统的词向量构建方法。

1.3 上下文的神经网络学习(word2vec)

2013 年提出的 word2vec,本质是单层隐层的神经网络(分为 CBOW 和 Skip-gram 两种模式),仅包含两个权重矩阵——输入侧权重矩阵(词表大小×嵌入维度)和输出侧权重矩阵(嵌入维度×词表大小)。多个上下文词共享同一输入权重矩阵,其输入经求和/平均后传入隐层,训练完成后,输入侧权重矩阵即为词的 embedding。

1.4 基于神经网络的长序列预测(RNN,循环神经网络)

1980s 年提出,但直到 2010s 才在 NLP 领域大规模应用,技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测,但依赖固定大小的上下文窗口,无法利用上下文之前的历史输入;而 RNN 通过给每个网络单元引入前序序列的 hidden state,将前序序列的信息总结并传递,实现了变长序列的建模。

1.5 RNN 的改进与 LSTM

简单 RNN 处理长序列时极易出现梯度消失 / 爆炸,难以训练。LSTM(长短期记忆网络)于 1997 年提出,但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构——遗忘门、输入门、输出门。所谓门控,是通过 sigmoid 函数计算出 0~1 之间的权重值,cell state(长期记忆)或者 hidden state(短期输出)乘以该权重值。门控也是深度学习中控制信息流动的核心组件。

1.6 Seq2Seq 架构

于 2014 年提出,以 RNN(或 LSTM)为基础,通过堆叠形成 encoder→decoder(编码器→解码器)架构。早期 Seq2Seq 中,encoder 将输入序列编码为一个固定维度的 hidden state,再传递给 decoder,相当于整个输入序列被压缩为单个 hidden state。

1.7 Attention 结构

2014 年提出,用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化,使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是:decoder 每一步的 hidden state,都会与 encoder 所有词的 hidden state 计算内积,得到注意力权重,经 softmax 归一化后,再与 encoder 的 hidden state 做加权求和,得到上下文向量,然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。


本书内容至此结束,结合后续自然语言处理技术的发展,其演进脉络进一步延伸:

2. 书外延伸

2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出,基于带有 Attention 组件的 Seq2Seq 架构演进而来,整体仍保留 encoder→decoder 框架,但不再使用 RNN 的循环结构(实现全序列并行计算,而非按位置串行),同时开始加深层数,并且内部核心组件替换为以下关键部分:

  • Attention 计算升级为 Multi-Head Self-Attention(多头自注意力):通过 Q(查询向量)、K(键向量)、V(值向量)三个矩阵计算实现注意力查找,核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重,再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于:此前是 decoder 向 encoder 获取信息(交叉注意力),而 Self-Attention 是序列内部的词与词之间相互关注,实现序列内部依赖关系的建模。在此基础上,Transformer 引入了 Multi-Head(多头)机制:将 Q、K、V 各自拆分为多个头(head),每个头独立进行注意力计算,最后将所有头的输出拼接(concat)后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息——例如一个头关注语法关系,另一个头关注语义相似性——从而显著增强模型的表达能力。这也是后续 GQA(分组查询注意力)、MLA(多头潜在注意力)等改进的基础。
  • Cross-Attention(交叉注意力):原始 Transformer 的 Decoder 层实际上包含三个子层:Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模(带掩码,防止看到未来的词),Cross-Attention 则负责 Decoder 向 Encoder 获取信息——Q 来自 Decoder 的 Self-Attention 输出,K/V 来自 Encoder 最后一层的输出,本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说,Transformer 的 Decoder 同时包含了 Self-Attention(序列内部关注)和 Cross-Attention(跨序列关注)两种注意力机制。后续演进到 Decoder-only 架构后,由于去掉了 Encoder,Cross-Attention 随之消失,仅保留 Self-Attention。
  • FFN(前馈神经网络)计算:在输出之前进行两次矩阵投影,先通过"上投影"(up-projection)将特征维度提升,再通过"下投影"(down-projection)将维度还原,中间加入非线性激活函数,增强模型的表达能力。

2.2 位置编码(Positional Encoding)

与 Transformer 同时于 2017 年提出,为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式,采用所有词同时输入的并行方式,无法天然捕捉语序信息,因此需要额外为每个词添加"位置标签"(位置编码),让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出,主流的 RoPE(旋转位置编码)于 2021 年提出,大幅提升了模型对长文本的处理能力和建模精度。

2.3 归一化(Normalization)位置优化

Post-Norm 随 2017 年 Transformer 提出;Pre-Norm 思想更早,在 Transformer 架构中于 2019–2020 年逐步流行。为解决极深网络的训练不稳定性问题,对归一化的位置进行了调整,从早期的 Post-Norm(先完成层计算,再进行归一化),演进到如今主流的 Pre-Norm(先进行归一化,再执行层计算),这种调整让残差不受 Norm 的影响,有效缓解了深层网络的梯度消失问题,保证了深层网络(尤其是万亿参数级模型)训练的稳定性,是大模型能够落地的重要基础。

http://www.gsyq.cn/news/1589707.html

相关文章:

  • 你的 AI 助手为什么总是 “掉线“?真正的原因不在网络
  • 终极iOS激活锁绕过指南:免费解锁iPhone 15-16的完整解决方案
  • 终极Windows系统优化指南:Win11Debloat让你的电脑重获新生
  • SQL注入攻防实战:从手工探测到自动化利用与防御实践
  • 高灵敏安全触边,消除设备夹手隐患
  • 基座模型切换实战指南:Grok-4推理优化与系统适配
  • 从噪音困扰到静音享受:如何用FanControl为Windows电脑定制专属风扇策略
  • 终极Office激活指南:3分钟解锁Microsoft 365完整功能
  • 终极MPV播放器懒人包:10分钟打造专业级视频播放体验
  • 终极指南:让微信网页版在任何浏览器中完美运行的简单方法
  • 当工具越来越多,Prompt 需要分层管理
  • EasyOCR微调实战:零基础提升垂直场景OCR准确率
  • 英雄联盟智能助手:5个功能彻底改变你的游戏体验
  • 从高斯曲率到Morse-Bott理论:能量函数如何刻画曲面形态
  • 开源PLC编程终极指南:如何用OpenPLC Editor零成本掌握工业自动化
  • 【小白向】低配电脑也能流畅跑,虾壳云一键部署 OpenClaw v2.7.9 适配教程(最新安装包)
  • 【学术干货】从「预测器」到「发现工具」:清华UniCM如何让AI真正理解全球气候系统
  • 别天天只知道群发!教你 搭建个人微信增量语料库,低成本喂饱本地大模型
  • Django毕业设计-基于 Django 的可视化人工智能科普平台设计与实现 基于 Django 的 AI 知识可视化科普平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 时间复杂度和空间复杂度
  • LangGraph与LLM连接实战:State数据契约与消息适配器设计
  • NYFEA徕飞重磅推出SN74LVC系列逻辑芯片
  • OBS实时字幕插件完整指南:5分钟实现直播字幕功能
  • LLM 驱动的智能工作流引擎:从 Prompt 编排到 DAG 调度的工程实践
  • LPC315x微控制器PCM/IOM接口配置与SysCReg寄存器详解
  • 计算机毕业设计之“汉画像砖” 文化宣传网站
  • 新手必看的美食视频背景音乐选曲指南:5个高性价比素材网站深度评测
  • iPhone本地大模型实战:Gemma 2量化部署与Core ML优化指南
  • 网站有流量为什么没有询盘?很多时候不是SEO没用,而是页面没接住客户
  • 彻底告别风扇噪音:用Fan Control打造你的静音电脑工作站