当前位置：首页 > news >正文

Direct Corpus Interaction (DCI) 论文理念助力Agent发展

news 2026/6/10 15:59:38

一、核心设计理念接口翻转DCI的根本设计思路是把语义理解的责任从索引层下移到LLM层。传统流程原始语料 → 切块 → 向量化/建索引 → top-k过滤 → LLM推理DCI流程原始语料 ←→ LLM直接用终端工具操作自己决定搜什么没有任何embedding模型、向量索引或检索API介入。语料库始终完整可达LLM自己承担知道去哪找的职责。二、工具集设计四类操作原语论文明确列出了DCI提供给Agent的工具分为四类操作类型具体工具用途精确匹配grep、rgripgrep精确字符串或正则表达式匹配结构导航find、glob文件发现、目录遍历局部检视head、tail、sed、文件读取检查匹配位置的上下文组合脚本轻量shell脚本、python -c多步骤逻辑、聚合计数等这些工具的核心优势在于可管道化组合例如多条件约束grep foo file | grep bar弱线索聚合find . | grep report | grep 2024假设验证grep -n keyword file | head三、两种Agent实现论文实现了两个版本设计目的不同DCI-Agent-Lite极简版基础框架改自开源项目 Pi一个极简终端coding harness工具集仅bashread无任何检索专用模块骨干模型GPT-5.4 nano设计目的干净地隔离DCI接口本身的效果排除harness工程的干扰特点无离线索引、无dense retriever、无rerankerDCI-Agent-CC强化版基础框架Claude CodeAnthropic官方CLI Agent工具集Claude Code默认工具集但禁用了web-search、web-fetch、subagents并屏蔽了数据目录直接访问防止答案泄露骨干模型Claude Sonnet 4.6设计目的探测DCI范式在最强harness下的性能上限特点更强的prompt engineering、更鲁棒的工具编排、内置上下文管理两者的共同点都只通过终端工具操作原始语料不调用任何向量检索API。四、上下文管理机制设计这是DCI工程实现中最精细的部分也是论文专门设计的。问题grep/rg可能返回大量匹配行文件读取会暴露长文本长轨迹中这些观测快速堆积超出模型上下文窗口。解决方案三层递进机制第1层截断Truncation 每次工具调用的结果在写入上下文前按字符数上限截断保留这次调用发生了的信息控制单轮冗长度第2层压缩Compaction 纯内存操作不调用LLM 当累积工具输出超过阈值240K字符时清空最老的若干轮工具结果内容替换为短占位符保留工具调用的结构知道调用过什么丢弃具体内容第3层摘要Summarization 压缩后上下文仍超限时调用LLM生成搜索轨迹摘要摘要替换已压缩的历史保留最近20K tokens原始内容连续失败3次后本轮停止尝试五个档位的具体配置档位截断上限压缩摘要L0无无无L150K字符无无L220K字符无无L320K字符✓无L420K字符✓✓实验发现最优策略是L3准确率77%不是最激进的L473%——说明压缩策略存在甜蜜点过度压缩会丢失有用的中间搜索结构。五、Prompt设计附录C给出完整模板论文给出了两套指令模板QA任务的系统提示核心要点明确限定只能使用ripgrep和bash禁止调用Agent工具或子Agent禁止网络搜索要求在单次回复中并行发出多条搜索命令节省轮次要求使用多样化关键词组合最大化召回输出格式强制规范ExplanationExact AnswerConfidence含文档路径引用IR排序任务的系统提示额外要求召回和精度同等重要因为NDCG对两者都惩罚每轮搜索后反思空白点发起补充搜索不许找到几篇就停要穷举所有合理的搜索角度输出最多20篇文档按相关性从高到低排列六、评估体系设计论文专门为DCI设计了两个过程指标来解释为什么它有效Coverage覆盖率轨迹有没有触达金文档coverage_any至少触达1篇金文档coverage_mean平均触达比例coverage_all触达全部金文档Localization局部化得分触达金文档后提取出的片段有多精准片段越短相对于整篇文档得分越高反映Agent是否在精确提取证据而不是大段阅读文档这两个指标合起来揭示了DCI的工作原理coverage_mean低于传统检索找到的金文档总量更少但localization远高于传统检索找到的文档里提取的证据更精准最终准确率反而更高。总结DCI设计的本质论文的设计哲学可以用一句话概括不要替LLM做检索决策把工具给它让它自己搜。具体体现为不建任何索引、不做任何预过滤、把一套可自由组合的终端原语交给Agent、配合上下文管理让它能跑足够长的搜索轨迹。整个设计的复杂度其实很低——复杂的部分都外包给了LLM的推理能力。参考链接详见gzh:计算机知识的传播者

查看全文

http://www.gsyq.cn/news/1387008.html