当前位置：首页 > news >正文

【论文阅读】Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Gen

news 2026/6/29 19:01:17

Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Generation

ACL 2026

[2601.02993] Stable-RAG: Mitigating Retrieval-Permutation-Induced Hallucinations in Retrieval-Augmented Generation

【先看图尝试理解作者的想法：似乎是在前期使用一些策略，获取LLM的不同答案输出，依赖上一步的答案输出和真实答案进行比对，分类对应不同的DPO好坏排布的策略。所以最后还是要对RAG中的LLM进行强化学习，是需要做出改动的。

前序获取不同的大模型输出结果，调整的是检索出来的n个文档之间的相对顺序，总共有Ann中排列，也就是n的阶乘。后面是从LLM的每一层找内部状态，内部状态聚类，然后解码？这里我属实没看明白，就只能理解聚类，因为如果获取n!种答案未免太过浪费和耗费资源，但是对什么东西聚类、LLM是如何依据不同的聚类内容输出不同结果的，这里就需要看论文来获悉了。】

研究背景

大模型本身有幻觉，RAG系统用来减少事实性幻觉

但是RAG系统肯定也不是零幻觉的。

作者声称他们发现了现有RAG 系统中一个关键但被忽视的漏洞：对检索文档顺序的高度敏感性。当检索内容保持不变（包含黄金文档）时，仅仅重新排列它们的顺序就可能导致模型遵循完全不同的推理路径并产生不一致的答案，这被称为排列诱导幻觉(Permutation-Induced Hallucinations)。

如图1所示，检索了 Top-5 文档，将黄金文档置于不同位置，观察到 LLM 的答案在不同的检索排列下存在显著差异。即使黄金文档被固定在第一位，模型也可能忽略它并产生与证据冲突的答案。这揭示了一种此前未被深入探索的对检索排列的敏感性，即使在低于 1,000 个 token 的短上下文中也是如此。

现有的稳健 RAG 方法主要关注检索质量和位置偏差。前者通过不确定性估计和对抗性训练（例如对弱相关文档进行噪声注入）来增强 LLM 对低质量检索的稳健性。后者缓解了长上下文中对特定位置的注意力偏差，从而促进了对检索文档更均衡的使用。

然而，这些方法忽略了一个关键问题：排列敏感性既不是由弱相关文档引起的（因为输入文档是相同的），也不局限于长上下文推理任务（因为只有 Top-5 文档在 1,000 个 token 以内）。

图 2：在 NQ 训练集上使用 DPR 检索器（模型为 LLaMA3-8B-Instruct）以及在 HotpotQA 训练集上使用 Contriever 检索器（模型为 Qwen3-8B）时，各层隐藏状态的聚类行为，实验使用了 1,000 个随机采样的实例。不同颜色的线条表示大语言模型在 Top-5 检索文档的所有 5!(=120) 排列组合下产生的最终推理状态的聚类数量（例如，绿线表示 3-5 个聚类状态）。其他规模的结果在附录中报告。

相反，排列敏感性源于大语言模型（LLM）内部推理动态的结构性不稳定。随着模型深度的增加，文档排列会引发越来越多的不同推理轨迹，导致更频繁的分支，从而增加幻觉或产生不可靠输出的风险。

如图2所示，在 NQ 和 HotpotQA 数据集上，测量了通过对不同 LLM 层级中经过文档排列后的表征进行谱聚类所获得的平均聚类数量。结果表明，浅层的推理轨迹相对集中，而分歧在中间层出现，并在更高层中变得更加显著。此外，敏感样本（即 10+）比非敏感样本（即 1-2）表现出更大的分歧，且这种效应主要集中在更高层级。这些发现突显了缓解排列敏感性的重要性，使 LLM 无论检索到的文档顺序如何，都能产生稳定且准确的输出，这对于提高检索增强生成（RAG）系统的鲁棒性至关重要。

预备知识

问题定义

排列敏感性评估

近期工作【Clue: Non-parametric verification from experience via hidden-state clustering； Efficient latent semantic clustering for scaling test-time computation of LLMs.】利用隐藏状态来揭示潜在的推理轨迹，这些轨迹通常作为生成不确定性的指标。因此，作者提出通过隐藏状态的谱聚类来量化模型生成的各种不确定性。

作者通过逐层可视化和定量分析，验证了谱聚类 Ng et al. (2001); Von Luxburg (2007) 的可行性。

层级可视化

对于每个问题，对 Top-5 文档进行排列以生成 5!=120 种顺序，并在生成回复前提取每一层最后一个 Token 的隐藏状态。然后通过PCA将具有代表性的层投影到二维空间进行可视化，如图3所示。

观察到，浅层的隐藏状态形成了混合聚类，对应不同答案的点相互交织；而在更深的层中，聚类变得越来越清晰，具有相同答案的点明显聚集在一起。这表明文档顺序的变化会导致不同的推理轨迹，这些轨迹在隐藏状态空间中表现为逐渐可分的聚类，反映了模型的内部推理模式。

聚类的定量分析

为了评估每个聚类的推理性能，选择距离聚类中心最近的隐藏状态，将其解码为该聚类的代表性答案，并将此答案与同一聚类中所有隐藏状态的真实推理答案进行匹配，以计算总体精确率（Precision）、召回率（Recall）和 F1 分数。

如表1所示，聚类指标随网络深度增加而提升，表明不同答案的隐藏状态在深层中变得更易于区分。值得注意的是，聚类性能已达到实际应用水平，其中 LLaMA3 的 F1 分数为 83.9，Qwen3 的 F1 分数为 87.6。因此，作者在方法中使用最后一层的隐藏状态进行谱聚类。

方法

方法包含三个阶段：隐藏状态聚类、偏好数据构建以及利用 DPO 进行对齐，如图4所示。对于每种排列，提取响应生成前最后一层的最后一个 Token 的隐藏状态，以捕捉模型的推理状态。随后应用谱聚类来发现潜在的推理模式，并对每个聚类中的代表性状态进行解码。通过对齐跨排列的隐藏状态，方法提高了模型在不同检索顺序下生成结果的一致性。

1. 隐状态聚类

1.1 内部状态提取

枚举文档的所有排列，并针对每种排列运行模型。仅提取响应生成前最后一层的最后一个 Token 的隐藏状态 h(i)∈ℝd。将所有隐藏状态组织成一个矩阵 H：

该矩阵表示模型在文档排列中的最终推理状态分布。

1.2 隐状态谱聚类

对 H 应用谱聚类，其中每个聚类对应一种潜在的推理模式。使用余弦距离的指数函数计算每对隐藏状态 h(i) 和 h(j) 之间的相似度：

其中 σ 是控制敏感度的超参数。此处，A∈ℝN×N 表示所有 N 隐藏状态的加权邻接矩阵。

归一化图拉普拉斯矩阵 L 构建如下：

D 是度矩阵，其每个对角线条目 Dii 表示连接到第 i 个隐藏状态（视为图节点）的边权重之和，I 是单位矩阵。

聚类数量 K 通过 L 的特征间隙（eigengap）自适应确定。设 λ1≤⋯≤λN 为 L 的特征值，并定义每对相邻特征值之间的连续间隙 gapi=λi+1−λi。随后将聚类数量设置为 K=max⁡(2,(arg⁡maxi⁡gapi)+1)，以确保潜在推理模式之间有清晰的分离。一旦确定了 K，便获得所有隐藏状态的归一化谱嵌入，并将每个 h(i) 分配到其中一个聚类 C1,C2,…,CK 中。

1.3 聚类内部的代表性解码

在每个聚类 Ck 内，通过基于质心的采样来识别一个代表性隐藏状态。聚类质心计算如下：

h是每一个聚类内部的代表性隐状态，本质上是为了减少开销，运行次数不再是n!而是聚类的列别个数。

1.4 穷举全排列解码

跑n!次记过作为参考，来评估代表性解码的效率增益

2. 偏好数据集构建

2.1 目标

目标是构建一个稳健的 RAG 系统。当模型无法生成可靠答案时，鼓励其放弃，以有效抑制幻觉并提高系统可靠性。当存在可用答案时，无论文档顺序如何，输出都应保持一致，从而降低排列敏感性，并进一步增强整体推理的稳健性。

2.2 数据集构建

和图4的表达是一样的，每一类都有对应的偏好回答

3. DPO强化学习对齐

实验

1. 实验设置

数据集：NQ， TriviaQA，HotpotQA

评估指标：子串精确匹配（SubEM）和 F1 值。SubEM 检查标准答案是否作为子串出现在预测结果中，而 F1 则衡量预测结果与参考答案之间的 Token 级重叠度。

baseline：基础（Vanilla）方法包括直接生成（Direct Generation）、基础 RAG Lewis et al. (2020) 以及基础 SFT Zhang et al. (2024a)。鲁棒 RAG 方法包括 RetRobust Yoran et al. (2024)、ATM Zhu et al. (2024a) 以及 RAAT Fang et al. (2024)。位置偏差（Positional Bias）方法包括 Pos2Distill Wang et al. (2025b) 和 Ms-PoE Zhang et al. (2024d)。

实现细节：

使用 LLaMA3-8B-Instruct和 Qwen3-8B作为实验的主干模型。对所有基线方法和我们的方法使用由 DPR和 Contriever-MS MARCO 检索到的相同 Top-5 维基百科段落。

训练细节：

使用 HuggingFace Transformers 实现 DPO 训练流水线，并结合 PEFT LoRA进行参数高效微调。基础模型和参考模型均从预训练检查点初始化，其中参考模型保持在评估模式，以在训练过程中提供稳定的策略目标。每个数据集均经过随机打乱，并按 85% 的训练集和 15% 的验证集进行划分，每个数据集最多包含 18,000 个样本，以控制计算开销。随机种子42；LoRA 应用于所有投影层，秩（rank）为 r=128，alpha 为 =128，dropout 为 =0，且不添加额外的偏置项。 DPO 配置采用单设备批大小为 2，梯度累积步数为 8，学习率为 5×10−6，线性预热比例为 0.1，偏好缩放超参数 β 为 0.4。在两张 NVIDIA RTX PRO 6000 GPU 上对 LLaMA-3-8B-Instruct 训练 1 个 epoch，对 Qwen3-8B 训练 2 个 epoch，每个 epoch 大约耗时两小时。在数据构建过程中使用贪婪解码，并在推理过程中将温度设置为 0.01，这几乎等同于贪婪解码。这确保了输出的变化主要反映了对文档顺序的敏感性，而非采样随机性。

提示词：

2.结果

结果表明：

(i) 总体性能。在使用 Contriever 和 DPR 检索器的所有数据集上，Stable-RAG 始终实现最佳的整体性能，优于所有强基线模型；

(ii) 复杂推理的有效性。 Stable-RAG 在单跳和多跳 QA 任务上均持续提升了性能，证明了其稳定复杂问题中间推理的能力；

(iii) 模型泛化能力。 Stable-RAG 在不同骨干模型上均表现稳健，显示出与模型无关的泛化能力

3. 深入分析

消融实验

移除任何组件都会导致性能持续下降，这表明所有组件都是必不可少的。特别是，排除 PC 组件（索引 a）会导致各数据集上的性能显著下降，这表明部分正确信号对于稳定推理至关重要。移除 FA（索引 c）主要影响整体性能，而移除 FU（索引 b, d）则会大幅降低弃权率，这凸显了它在处理无法回答或幻觉案例中的作用。总体而言，Stable-RAG 在性能和弃权之间实现了最佳权衡。

和标准DPO对比

将 Stable-RAG 与标准 DPO 进行了比较，两者使用相同的基础模型和优化策略，区别仅在于是否强制执行跨文档顺序的推理一致性。在标准 DPO 中，模型被训练为在有证据时倾向于选择标准答案，而不是通过采样获得的错误答案，或在查询无法回答时选择“我不知道”。

表4中的结果表明，在不修改偏好优化框架的前提下，增加顺序稳定性约束能够持续提升 RAG 在不同数据集和检索器上的性能。

跨数据集泛化性

图五左侧，实验结果表明，Stable-RAG 在不同任务和知识领域中表现出稳健的迁移能力，无论源数据集与目标数据集如何组合，其表现始终优于最优基线，并在答案一致性方面实现了稳定的提升。

跨检索器

图五中间

跨Top-K

图五右侧

该模型在各种 Top-K 配置下均保持了稳定的性能，并比相应的基线实现了显著提升，证明了其在处理不同数量候选文档时具有强大的泛化能力。

训练数据规模

性能随数据量增加而稳步提升，并在超过 15k 个样本后趋于饱和，这表明相对较小的数据集就足以捕捉核心的排列敏感模式。然而，在数据非常有限（例如 1k）的情况下，性能会显著下降，反映出对细粒度顺序差异进行建模的难度。考虑到这一权衡，我们采用 15k 个样本作为默认值，因为超过 20k 个样本所带来的收益不足以抵消增加的计算成本。

DPO后的内部模型行为

我们根据基础模型对样本的敏感度进行标注，并检查训练后的隐藏状态聚类情况。图6b显示，我们的方法减少了高敏感度样本的聚类，保持了中等敏感度样本的稳定性，并略微增加了低敏感度样本的聚类。图6c 展示了仅在敏感样本上进行训练的结果，图6d展示了标准 DPO 的结果。可以看出，聚类的增加主要源于 DPO 带来的回答多样性，而非直接在敏感样本上训练所致。例如，对于相同的查询“猫鼠法案是何时引入的？”和顺序，DPO 之后响应从“1913年。”变为“引入于1913年4月。”。总的来说，我们的方法在稳定高敏感度表征的同时，保留了低敏感度样本的多样性。

DPO之后的外部位置鲁棒性

原始顺序和打乱顺序

结论

确定了RAG中一个未被充分探索的脆弱性：大语言模型（LLM）对文档顺序高度敏感，即使面对相同的证据，也会产生分歧的推理结果，以及不一致或幻觉输出。

层级分析将这种不稳定性追溯到模型的中间层和高层。

提出了 Stable-RAG，它通过对排列后的隐藏状态进行聚类，并通过 DPO 优化对齐推理模式，从而降低了由排列引起的不确定性。

在多个问答基准测试上的实验表明，该方法在准确性、推理稳定性和强迁移能力方面均有持续提升。在降低训练成本的同时强制执行层级推理约束，为减轻由排列引起的幻觉提供了一种有前景的方法。

局限

方法侧重于在最终层表示层面稳定推理，而没有在整个模型中明确施加逐层的推理路径约束。Stable-RAG 并没有直接对中间层的推理轨迹进行正则化。加入明确的逐层约束或轨迹级对齐可能会进一步提高推理稳定性，但这需要更细粒度的监督或架构修改，我们将这些留待未来工作探索。

Stable-RAG 依赖于对文档排列后的隐藏表示进行谱聚类，以估计主导推理模式并为 DPO 对齐构建偏好信号。虽然与穷尽的全排列解码相比，该策略将标注成本降低了约三倍，但它仍然带来了不可忽视的计算和标注开销。更高效的聚类策略、弱监督信号或完全无监督的对齐目标可以进一步降低对标注的需求并提高可扩展性。探索此类经济高效的监督机制对于构建更稳健、更实用的 RAG 系统至关重要。

查看全文

http://www.gsyq.cn/news/1603153.html