当前位置: 首页 > news >正文

牛了,UMG-RAG实现自适应检索粒度

今天分享普渡大学的 UMG-RAG 论文,它回答了一个每个做 RAG 的人都会遇到的问题:chunk size 到底该设多少?

答案是:别拍脑袋定一个固定值。不同查询需要不同粒度,而检索器自己的分数分布会告诉你——它对当前查询有多确定。

粒度权衡:粗了有噪声,细了会漏检

RAG 的检索粒度是一个根本性权衡:

粗粒度 chunk(如 32 句一段)保留了完整上下文,答案很可能就在里面。但同时也塞了大量无关内容,让 LLM 遭遇 lost-in-the-middle——答案确实在上下文里,但被噪声淹没,模型可能忽略它。

细粒度 chunk(如 2 句一段)更精确,噪声少。但短 chunk 可能缺乏语义线索、实体别名或桥接上下文,导致检索器根本找不到它。

更关键的是,不同查询需要不同粒度。一个简单事实查询可能 2 句就够;一个需要多跳推理的查询可能需要 16 句的上下文来桥接信息。固定粒度注定无法同时服务两类查询。

UMG-RAG 的思路是:与其人工选一个粒度,不如同时用多种粒度检索,然后根据检索器自己对每条查询的"确定程度"来决定信谁。

主方案UMG-RAG

UMG-RAG 是 training-free 的。它不训练新 retriever,不修改 generator,只在现有 dense 和 sparse retriever 之上加了一层自适应融合。

第一步:多粒度多通道检索

文档被切成 5 种粒度的重叠 chunk:2、4、8、16、32 句。对每种粒度,dense retriever(如 BGE-M3)和 sparse retriever(如 SPLADEv3)各自检索 top-M=100 个候选。

这样,每条查询产生 5 × 2 = 10 组候选列表,每组对应一个 expert-粒度对。

第二步:分数分布 → 证据分布 → 熵 → 置信度

核心机制从这里开始。

不同 expert、不同粒度的分数不可直接比较——dense 分数和 sparse 分数量级不同,粗粒度分数和细粒度分数分布也不同。所以 UMG-RAG 先把每组分数归一化,然后转化成证据分布:

p_{e,g}(u|q) = softmax(s̃_{e,g}(q,u))

这个分布衡量的是:expert e 在粒度 g 下,把多少"证据质量"集中在候选 u 上。

然后计算归一化熵:

H_{e,g}(q) = -Σ p·log(p) / log(|C|)

低熵 = 分布集中 = 检索器有明确偏好 = 可信****高熵 = 分布平坦 = 检索器犹豫不决 = 不可信

置信度就是:

c_{e,g}(q) = 1 - H_{e,g}(q)

所有 10 组 expert-粒度对的置信度归一化后,作为融合权重w_{e,g}(q)

第三步:置信度加权融合 + 长度惩罚排序

每个 chunk 的最终证据概率是所有 expert-粒度对的置信度加权混合:

P(u|q) = Σ w_{e,g}(q) · p_{e,g}(u|q)

然后按 evidence utility 排序:

R(u|q) = P(u|q) / sqrt(ℓ(u))

ℓ(u)是 chunk 的 token 长度。sqrt 惩罚温和地偏袒紧凑 chunk,但如果一个长 chunk 获得了很强的证据支持,它仍然可以排名靠前。

最终取 top-K=5 个 chunk 送入 generator。

这个设计的本质是:让检索结果自己告诉你它有多可靠。对于词汇匹配明确的查询,sparse retriever 在细粒度上的分数分布会很尖锐(低熵高置信),权重自然偏向它;对于需要语义理解的查询,dense retriever 在粗粒度上的分数分布可能更集中,权重就会偏向它。不需要训练,不需要人工调参。

UMGP-RAG:细粒度做定位器,粗粒度做上下文

UMG-RAG 还有一个扩展:UMGP-RAG(P = Parent Promotion)。

问题:细粒度 chunk 检索精准,但可能上下文不够;粗粒度 chunk 上下文完整,但噪声多。

UMGP-RAG 的解法:

  1. Parent promotion:g=2 或 g=4 的命中 chunk,提升到其 g=8 的 parent chunk。细粒度检索充当"定位器",告诉系统"答案大概在这里";返回给 generator 的是更宽的 parent,提供局部连贯性。
  2. Bounded evidence aggregation:多个细粒度 chunk 映射到同一个 parent 时,用A(v) = 1 - Π(1-P(u))聚合证据。多个命中的 parent 会获得更高分数——直觉上,如果多个独立检索信号都指向同一个区域,那里更可能包含答案。
  3. Overlap-aware deduplication:如果两个 chunk 的句子重叠超过 75%(较短者为准),跳过后来的。这避免了返回几乎相同的上下文。

实验结果

论文在 Natural Questions(NQ)和 HotPotQA 上测试,使用 3 个 dense retriever(BERT / BGE-M3 / Qwen3-Embedding-4B)+ SPLADEv3 sparse retriever,2 个 generator(Qwen2.5-3B / Llama-3.2-3B)。

最关键的发现:检索召回最高 ≠ 生成最好

以 BGE-M3 + Qwen2.5-3B-Instruct 在 NQ 上为例:

方法AR@5(检索)F1(生成)AR(生成)
LongRAG0.91010.45980.4219
Hybrid (RRF)0.82410.49270.4727
UMG-RAG0.80230.48090.4593
UMGP-RAG0.87590.50520.4794

LongRAG 的检索召回率最高(0.91),因为它的 chunk 很长,答案几乎一定在里面。但生成 F1 和 AR 却不如 UMGP-RAG——因为长 chunk 里太多噪声,答案可能出现在 LLM 不容易注意到的位置。

UMGP-RAG 的检索召回略低于 LongRAG,但生成质量最好。这验证了论文的核心主张:RAG 需要的不是最长的上下文,而是紧凑、连贯、与查询对齐的上下文。

Parent promotion 持续有效

在所有 retriever-generator 组合中,UMGP-RAG 都优于 UMG-RAG。这说明自适应融合最有效的方式是:用细粒度检索定位,用粗粒度 parent 返回上下文。

成本

多粒度检索确实增加了预处理开销:标准 RAG 0.15s/query,UMGP-RAG 5.36s/query。但生成阶段反而更快更省内存(0.33s vs 0.71s,6716 MiB vs 7558 MiB),因为送入 generator 的上下文更紧凑。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.gsyq.cn/news/1515316.html

相关文章:

  • 2026年成都别墅有哪些热门的项目,选购指南与费用解析 - myqiye
  • Bash-stack Docker部署指南:从开发到生产的完整容器化流程
  • 用Python给自己算笔账:月薪1万5,多久能在北京攒够首付?(附完整代码)
  • 描述性分析实战指南:从数据体检到业务洞察
  • 2026年成都主城区别墅带儿童乐园的有哪些,十大品牌排行榜 - myqiye
  • Cadence 17.4 原理图差分对(Differential Pair)设置详解:从高速信号完整性到实际创建步骤
  • PageIndex:扔掉向量数据库,RAG 准确率飙到 98.7%
  • 3步搞定专业级图像融合:Qwen-Image-Edit-2509-Fusion实战指南
  • 2026年曲靖学仕教育公考培训专业不专业,口碑与品牌推荐 - mypinpai
  • BLOOM模型高效部署:BLOOMz.cpp量化技术节省50%内存的实战指南
  • 提炼粤北山水打卡,能提供光影潮玩馆的景区选购指南 - mypinpai
  • 从生信小白到入门:手把手教你用R语言和DESeq2搞定差异基因分析(附完整代码)
  • 信号与系统作业救星:手把手教你搞定Laplace变换的初值定理与终值定理(附SS2023-HW10真题解析)
  • 基于DOTA v1.0的旋转目标检测算法实现:RoI Transformer与Gliding Vertex
  • 从零搭建你的第一个ARM Linux系统:GEC6818开发板+Buildroot实战记录(避坑指南)
  • 分析实力强的婚纱摄影专业公司,哪个口碑好 - mypinpai
  • 5分钟快速解决Lapce远程SSH连接卡顿的完整指南
  • Keras多语种神经机器翻译实战:从架构设计到RTL位置编码
  • Java毕业设计-基于 SpringBoot 的高校学生学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 希腊移民热门之选:2026年6月值得推荐的门店,瓦努阿图移民/企业出海/买房移民/美国NIW移民,希腊移民顾问推荐 - 品牌推荐师
  • 工业级LLM结构化输出:本地与云模型协同的Schema合规实践
  • 别再乱选TVS管了!手把手教你根据信号速率和电压搞定ESD防护选型(附常见接口型号推荐)
  • TCP/UDP双模调试小工具:中文收发、十六进制查看、多连接并行测试,绿色免安装
  • 计算机毕业设计之书籍管理及推荐系统
  • 2026年苏州三坐标测量仪推荐榜:手动/自动/二手/进口/思瑞/蔡司/海克斯康高精度专业厂家精选 - 品牌发掘
  • LLMTime如何处理缺失数据?实战教程与效果评估
  • 不是催你振作,而是陪你缓一缓
  • 手把手教你为GD32W515的QSPI Flash驱动添加DMA支持(附完整工程)
  • 5个架构决策:为什么ROCm正在重塑异构计算的未来?
  • 保姆级教程:用EMQX Cloud Serverless + Vue3 5分钟搞定一个物联网消息看板