当前位置: 首页 > news >正文

20260526_204029_RAG外部检索是多余的,英伟达最新成果颠覆认知

INTRA:用 decoder 的 cross-attention 查询做检索,同一份预编码状态做生成。训练 164K 参数,在多跳 QA 上超越 BGE、Qwen3-Embedding、Jina Reranker 等 9 种检索基线。

RAG 一直有个被忽略的问题

RAG 的标准架构是这样的:

  1. 检索器(BM25 / BGE / ColBERT)从语料中找到相关文档
  2. 生成器(LLM)把检索到的文本重新编码,然后生成答案

这个架构有个根本问题:检索器和生成器在不同的表示空间里工作

检索器在 embedding 空间打分,生成器在 transformer 隐藏状态空间理解文本。检索器觉得"相关"的文档,生成器不一定觉得有用——这就是retriever-generator mismatch。这个问题一直存在,但大家习惯了,就把它当成了 RAG 的固有代价。

NVIDIA 的 INTRA 论文问了一个更本质的问题:

既然注意力本身就是 query-conditioned 的信息选择机制,为什么不让模型自己检索自己的编码表示?

INTRA的解题思路

注意力 = 检索

先看注意力的计算:

再看检索的计算:给定查询 q,在文档集合 {k₁, …, kₘ} 中找到最相关的——本质上就是对 qk^T 打分排序。

两者都是 query-conditioned matching over candidate states。注意力就是检索,检索就是注意力——它们是同一个数学操作的不同实例化。

INTRA 把这个等式变成了工程实现:

  1. 用编码器把语料中所有 chunk 预编码为 {k₁, …, kₘ}
  2. 在问题后附加几个可学习的 retrieval token,让 decoder 的 cross-attention 查询状态 qₗ 对全语料所有 chunk 打分(用 ColBERT 风格的 MaxSim)
  3. 选 top-n chunk,用它们的同一份预编码状态作为 cross-attention 上下文,正常生成答案

两遍 decoder 前向传播,共享一份编码状态。不需要重新编码,不需要外部检索器。

RQWK:一个精巧的工程技巧

标准 Transformer 有一个问题:每层的 key 投影矩阵 W_{K,l} 不同,所以每层需要不同的编码表示 K_l。如果直接用 INTRA,存储开销从 O(M) 爆炸到 O(L×M)。

INTRA 提出了Reverse-QWK(RQWK):把 key 投影移到 query 侧。

标准做法:K_l = RMSNorm(K) · γ_{K,l} · W_{K,l}(每层不同的 key 表示)

RQWK:存储一份 K̄ = RMSNorm(K),query 侧做 q̃_l = (q_l · W_{K,l}^T) ⊙ γ_{K,l}

数学上完全等价,但所有层共享同一份编码表示。检索的 MaxSim 和生成的注意力都在同一个空间里计算——检索和生成真正统一了

训练和推理

训练164K参数,其余全部冻结

INTRA 的训练量小到不可思议:

  • 编码器:冻结
  • 解码器:冻结
  • 只训练:retrieval token 嵌入 ρ(~164K 参数)+ 层聚合权重 α(272 参数)

总共不到 17 万参数,在一个 4B 参数的模型上训练。

训练目标也很简单:对 oracle evidence chunk 的 soft cross-entropy——让 retrieval token 学会"把概率质量放在正确的证据 chunk 上"。

这么小的训练量就能起作用,说明检索能力主要是预训练模型内蕴的,INTRA 只是把这种能力"暴露"出来。

效率:预编码状态跨查询复用

标准 RAG 的步骤:

  1. 检索文本
  2. 生成器重新编码检索到的文本
  3. 解码

INTRA 的步骤:

  1. 检索预编码状态
  2. 直接解码(跳过重新编码

当语料是静态的(大多数企业知识库都是),预编码状态只需计算一次,之后每个查询都复用。10 亿 token 的语料,8-bit 量化后约 2.5TB 存储——不小,但对于企业级部署是可行的。

多跳 QA 上超越所有检索基线

在四个 Wikipedia QA 基准上评估:

检索质量(完整证据召回率)

INTRA 在HotPotQA、2WikiMultihopQA、MuSiQue三个多跳基准上,完整证据召回率全面超越 9 种检索基线,包括:

  • 稀疏方法:TF-IDF、BM25
  • 密集方法:BGE-large、Qwen3-Embedding-0.6B/4B
  • 重排序:Jina Reranker
  • 混合方法:Hybrid RAG (RRF)
  • ColBERT 风格 MaxSim 基线

为什么多跳场景特别强?因为 INTRA 的检索信号来自 decoder 的注意力权重——它天然编码了"回答生成需要什么信息"。多跳问题需要组装多个证据片段,decoder 的查询状态能感知这种需求,引导检索到所有必要的证据。

单跳 Natural Questions 上优势不大——只需要找一个直接支撑段落,decoder 引导的多证据组装没有太多发挥空间。

端到端 QA 质量

方法HotPotQA EM2Wiki EMMuSiQue EM
BM2530.222.58.3
BGE-large36.827.411.2
Qwen3-Emb-4B39.530.113.7
Hybrid RAG40.130.814.2
INTRA41.331.615.8

用同一个 T5Gemma2 生成器,INTRA 检索的文档生成的答案质量最好。

Gap Closure:同一个 decoder 做检索+生成比换更强的生成器更有效

INTRA 定义了 Gap Closure = (EM_INTRA - EM_random) / (EM_oracle - EM_random),衡量 INTRA 检索多大程度上弥合了"随机 chunk"和"完美证据"之间的差距。

结果:用同一个 T5Gemma2 decoder 做检索+生成,Gap Closure 最大。换成更强的生成器(Qwen2.5-7B、Qwen2.5-72B),EM 绝对值更高,但 Gap Closure 反而下降——因为更强的生成器有自己的注意力模式,INTRA 检索的证据和它的注意力不完全对齐。

这进一步证明了核心论点:检索和生成在同一个表示空间里工作,比检索器+生成器各搞各的要好。

写在最后

INTRA 的核心论点不是"RAG 不好",而是"RAG 的检索和生成不应该在两个表示空间里工作"。

注意力本身就是检索——这是一个被忽略了太久的等式。当你让同一个模型用自己的注意力查询去检索自己的编码表示,检索器-生成器失配就消失了,多跳推理的证据组装也变得更精准。

当前的限制也很明显:基于 T5Gemma2 4B,开源的编码器-解码器模型远不如 decoder-only 模型丰富和强大。但如果这个方向成立,未来的大型编码器-解码器可能会让 INTRA 的优势更加显著。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.gsyq.cn/news/1399363.html

相关文章:

  • QwenPaw 编写插件让 会话(频道) 支持 分支(fork),回退(rewind),重新生成(regen)
  • 构建AI Agent网状通信运行时:从原理到实践
  • 2026年质量好的水泵/景观低压水泵/无锡喷泉低压水泵/水景低压水泵稳定供货厂家推荐 - 行业平台推荐
  • 从光耦选型到采样电路实战:一个智能硬件项目的完整信号链设计复盘
  • Claude模型家族实测横评:Opus、Sonnet、Haiku真实能力与选型指南
  • Linux服务器功耗异常排查?手把手教你用turbostat揪出CPU的‘电老虎’
  • 03-替换DeepSeek模型和VSCode中的使用
  • 从SEO到AEO:掌握答案引擎优化的核心策略与实践指南
  • 基于Git与LLM构建代码库知识库:增量维护与智能查询实践
  • 品达VRF Mini3,极简安装,空调全品牌自适应
  • 为什么网安人越来越焦虑?2026 行业现状与圈子生存困境全揭秘
  • Lanes:AI并行编码工作流管理工具的设计与实践
  • SVM模型可解释性新视角:正交多项式核与ORCA框架深度解析
  • 华为悦盒EC6109U海思MV200芯片刷机心得:ROOT、开ADB与遥控器待机修复全记录
  • 别再傻等TXE了!STM32F103串口DMA发送的完整避坑指南(附代码)
  • GEO不是新赛道,是你现有营销栈的“补丁“:2026年数字营销团队的整合指南
  • AI时代规范驱动开发:从模糊需求到精确代码的工程实践
  • 微处理器瞬态执行技术与安全漏洞形式化建模
  • 2026年热门的三亚中巴车出租/三亚会议车出租/三亚旅游车出租高评分公司推荐 - 行业平台推荐
  • 告别手动拷贝!用QtCreator+SSH一键部署Qt应用到RV1126开发板(保姆级避坑)
  • 构建会“说话”的智能体:从工具调用到记忆系统的工程实践
  • AI智能体在电商中的角色探索:从“人找货”到“货找人”的交互新范式
  • 2026年知名的家具批发/酒店家具批发本地公司推荐 - 品牌宣传支持者
  • 基于AI的邮件HTML兼容性自动修复工具开发实践
  • 在ZYNQMP上点亮800x480 LCD屏:从framebuffer到DRM框架的完整驱动移植实战
  • 用51单片机和BY8001模块做个复古MP3播放器,附完整代码和SD卡文件命名避坑指南
  • Soul in Motion:用身体运动探索内在状态的身心实践框架
  • AutoHotKey V2定时器(SetTimer)深度使用指南:从防抖连击到后台轮询,5个案例搞定
  • STM32H743模拟SMBUS读取BQ40Z50电量,我踩过的三个坑(附完整代码与示波器波形)
  • 大模型数据隐私保护:PII脱敏对模型性能影响的量化分析与实践