当前位置: 首页 > news >正文

[智能体-264]:Embedding 通俗发展史(四段式,大白话,从远古→现在 RAG)

一句话总纲:Embedding = 给文字 / 图片发坐标,坐标近 = 意思像,计算机靠坐标算相似度

一、史前:独热编码 One-hot(2013 年前,最原始)

逻辑

给每个词语单独编一串超长数字,1 个数字是 1,剩下全 0。 举例:词典一共 5000 个字,苹果 =[1,0,0…0]、香蕉 =[0,1,0…0]

缺点

  1. 词越多向量越长,几万词就是几万位,存储爆炸;
  2. 所有词语距离一模一样,苹果和香蕉、苹果和汽车距离完全相同,机器分不清语义远近
  3. 没法算语义相似,只能做简单匹配

类比:每个人单独占一栋独立大楼,没法看两个人离得远不远。

二、第一代:静态 Embedding(2013~2017,Word2Vec/GloVe/FastText,Embedding 正式诞生)

核心原理:词由身边邻居决定(语言学:词伴定词义)

谷歌 2013 年 Word2Vec 划时代:拿海量文章训练,用「看前后单词猜中间词」自学每个词的固定坐标向量

  • 苹果、梨子经常一起出现→向量挨得近;
  • 国王 - 男人 + 女人≈女王(向量加减法成立)。

优点

几千词压缩成 300~768 位短向量,好存、好计算相似度,真正实现语义数字化

致命短板:一词一向量(静态固定)

苹果(水果)、苹果(手机公司)共用同一串数字分不清一词多义;一句话只能拆词再平均整句话语义不准。 FastText 改良:拆分偏旁字根,能识别生僻新词,但还是静态不变向量。

类比:每个人一辈子固定一个住址,不管去哪、干什么,地址永远不变。

三、第二代:动态上下文 Embedding(2018~2021,ELMo→BERT,颠覆性升级)

ELMo(2018):同一个词,换句子就换坐标

顺着读 + 倒着读整段话,同词不同上下文 = 不同向量

  • 吃苹果 →「苹果」向量 1;
  • 苹果发布会 →「苹果」向量 2,完美解决一词多义

BERT(2018 谷歌封神,现代 Embedding 基石)

Transformer双向阅读全文,做「完形填空」预训练,整句话、整段文字都能直接生成专属向量单词升级到句子 / 段落向量化。 衍生:SBERT 专门优化句子相似度,现在 RAG 早期标配。

类比:人出门换住址,在菜市场是买菜坐标、在写字楼是上班坐标,位置随环境变化。

四、第三代:大模型专用检索 Embedding(2022 至今,RAG 黄金时代,你现在在用)

随着大模型幻觉问题出现,诞生专门为文档检索优化嵌入模型,也是咱们做文档分片、向量库用的 BGE、E5、m3e、OpenAI text-embedding 系列:

  1. 优化目标不再是完形填空,而是相似度匹配:刻意让同义文本向量靠近、无关文本远离;
  2. 支持超长段落(几千字文档直接向量化),适配递归文本分片
  3. 国产 BGE-zh 系列:中文最优、本地离线跑、免费开源(你之前代码用的就是它);
  4. 多模态 Embedding:文字 + 图片 + 表格统一变向量,PDF 带插图也能检索(bge-visual、CLIP)。

当下落地(RAG)全链路

文档→递归字符分割 Chunk→Embedding 转向量→存入向量库; 用户提问→同一个 Embedding 转向量→向量库就近匹配召回原文→丢给大模型回答。

极简时间线总结

  1. One-hot:孤立编号,无语义
  2. Word2Vec:一词一坐标,固定不动
  3. BERT:一词多坐标,随上下文动态
  4. BGE/E5:专为文档检索而生,RAG 标配
http://www.gsyq.cn/news/1463699.html

相关文章:

  • 深圳办公 ai 培训机构哪家值得信赖:五大机构最新专业测评 - 17329971652
  • 别再死记ResNet了!用PyTorch从零实现DenseNet-121,搞懂‘密集连接’到底好在哪
  • 被37所重点中小学内部传阅的《AI教学整合避坑手册》(含18个真实失败案例+可审计整改清单)
  • 【结果+代码】2026中青杯B题第一问建立无参考图像质量评价(NR-IQA)的数学模型
  • B站成分检测器:智能用户分析工具,让评论区身份一目了然
  • WCH-Link Utility隐藏功能挖掘:不止烧录,还能一键读保护、读Flash和批量操作
  • low-memory-server-swap-20260601
  • 从EFPLMN到EFFPLMN:实战解析USIM卡如何影响你的手机搜网与信号
  • 保姆级教程:用Altium Designer导出Gerber文件,一次搞定PCB打样(附常见错误排查)
  • STM32CubeMX实战:用按键和RTC闹钟唤醒你的低功耗设备(附完整代码)
  • 【字节跳动】巨量引擎第二层内核 纯工业级机密参数201-500
  • 直接用 CTP 做期货自动交易太乱:天勤式状态管理思路
  • AI工具如何72小时内重构对账流程?揭秘头部金融机构已验证的4层智能校验架构
  • 避坑指南:STM32低功耗停止模式唤醒后时钟配置的那些事儿
  • 泰坦尼克号生存预测三模型实战包:逻辑回归+ID3决策树+随机森林Python完整实现
  • Transformer QKV 计算瓶颈?一次关于长上下文显存爆炸的硬核排查与优化
  • 别再死记硬背!一张图+一个故事帮你理清正交、酉、正规矩阵的关系与区别
  • AI简历不是“加个ChatGPT”,而是重构求职链路——12个企业级落地案例拆解
  • CentOS 7生产环境PHP 8.1安装避坑实录:Remi源、扩展冲突与SELinux策略
  • ov5647摄像头模块、MIPI的MCLK主时钟
  • 2026运城市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐
  • 2026年硅胶密封圈供应商排名,哪家口碑好 - mypinpai
  • YOLOv11城市道路路面病害目标检测数据集-2722张-Pothole-detection-1
  • IPO材料智能生成系统崩溃事件复盘(附证监会反馈原文+AI修正日志),仅限本周开放下载
  • YOLO26 数据清洗自动化:基于聚类的噪声样本过滤——从特征提取到综合流水线的完整工程实践
  • AI赋能转正决策:从数据采集、能力建模到自动评估(2024最新Gartner验证框架)
  • 图片:数字化时代的视觉语言
  • 如何遗忘比如何记忆更重要——AI Agent框架的一些总结
  • 高级实时动漫视频超分辨率技术深度解析:Anime4K开源项目架构设计与性能优化实战指南
  • 3分钟实现智能图像分层:layerdivider让复杂插画秒变可编辑图层