当前位置: 首页 > news >正文

浅谈RAG前的语义缓存层(3) —— 还是得让大模型兜底

在上一节里,我们介绍了现在的语义缓存层是怎么做的。它的逻辑很简单:

  1. 把用户的问题转成向量
  2. 在向量数据库里匹配最接近的问题
  3. 最相似的问题相似度是否 >=0.9 ?
  • 如果是,就直接返回这个问题的答案
  • 否则走完整个RAG流程

博主的配置如下:

配置 备注 成本
向量数据库 milvus-lite 本地部署 免费
向量化模型 text-embedding-3-small api调用 0.02$ / M tokens

因为对手上QA的质量非常有信心,我的阈值设得很大胆,直接调到了0.85。

如果缓存命中,不需要调用大语言模型不需要文档检索,也不需要AI对着又臭又长的召回文档思考半分钟总结出答案。整个过程3秒钟搞定,api调用成本低到我想一直点击发送按钮烧钱。

重新评测

然而解决的过程总是不会这么顺利,我把加了缓存层之后的模型重新放回我的评测集里面跑,出现的一些问题甚至想让我马上把刚刚写的代码都删掉。

1. 高度相似的问题有可能并不等价

我的知识库里有这样一个QA:

一个模组大概会对应多少个测点?

很不巧的是评测集里有一条很接近的真实提问:

六个模组一共对应多少个测点?

这两条问题的相似度高达0.87,评测集的问题直接命中我的缓存层,然后我的智能体在3秒钟之内返回了一个完全错误的答案。

博主之前也是搞过NLP的,这个问题非常非常似曾相识。向量的相似性在识别语义上的相近性上表现非常不错,但是对于细微的变化并不敏感,举例来说:

  • 一套系统 vs 六套系统
  • 生产环境 vs 测试环境
  • 单节点部署 vs 集群部署

这些差异会彻底改变问题含义,但是这些用词的改变可能无法造成语义向量的大幅改动。

我的业务场景显然需要确保逻辑上准确无误,但是相似向量匹配这种做法可能还不够好。

2. 最权威的知识无法被模型利用

和腾讯元器不同的是,在我的业务场景中,QA并不是从文档里生成的,而是由真正设计和维护这个系统的开发人员对用户的真实回答。很多答案非常简洁扼要,并且高度浓缩,只通过文档很难推导出来。

我现在的设计对于这些最权威的知识是怎么运用的呢?

  • 如果缓存命中,就直接返回;
  • 如果缓存没命中,就直接忽略所有QA知识,直接去找文档;

换而言之,下游的RAG流程完全失去了这一部分知识。我在很多的问题里都观察到了这点,添加了缓存层之后,deepseek由于看不到这些答案,回答反而比之前把QA一股脑丢到markdown里更差。大模型完整阅读设计文档和代码片段,深度思考了半分钟(有时候甚至会想一分钟以上),然后给出一堆很长、看起来很对、验证起来非常费劲的回答。相比之下,没有加入缓存层的回答虽然也很长,但是deepseek会把QA的信息放在前面,这些知识非常扼要,用户可以立即验证。

这个案例给出了一个很重要的启示:

QA不仅仅是缓存的答案,也是宝贵的知识来源

如果在其他流程里忽略掉QA的作用,后续的流程就失去了一块价值非常高的知识。

http://www.gsyq.cn/news/1442542.html

相关文章:

  • MSC新规征求意见稿:细胞库检定要求升级,你注意到这五项了吗?
  • YACReader终极指南:三步打造你的专业漫画图书馆
  • 荧光法溶解氧仪源头厂家推荐榜:2026国产十大优选品牌深度评测与选型指南 - 仪表品牌榜
  • 新建分类
  • 突破60帧束缚:Genshin_StarRail_fps_unlocker带你体验240Hz流畅游戏世界
  • 从零到一:全面解析加密货币交易所的开发与搭建
  • 数字时代知识保存:从百科全书备份到长期存储技术实践
  • 3PEAK思瑞浦 TP5591-SR SOP8 精密运放
  • 如何实现谷歌秒收录?让爬虫每天多抓500次的底层逻辑
  • MapLibre GL JS第36课:一个Source配置多个图层样式
  • PLC项目开发流程详解:从需求分析到现场调试
  • 嘉兴修漏水哪家好|2026嘉兴靠谱防水补漏、全屋漏水维修分区推荐 - 吉修匠
  • 谷歌秒收录需要什么条件?解决“发现未索引”报错的3步急救法
  • 3步解决抖音内容采集难题:你的自动化下载工作流指南
  • 给资产装上“数字翅膀”:RWA系统开发者的千亿级造富风口
  • 抖音创作者作品批量下载神器:5分钟掌握高效视频采集
  • 青岛修漏水哪家好|2026 青岛靠谱防水补漏、全屋漏水维修分区推荐 - 吉修匠
  • YACReader终极指南:如何打造你的个人漫画图书馆
  • 2026年连锁酒店加盟品牌差异横评:定位层级、物业适配与收益模型全对比 - 科技焦点
  • OmenSuperHub深度解析:开源硬件控制工具的技术实现与实践指南
  • 科研写作从低效到持续高产,只需要掌握这套Gemini 3.1 Pro的辅助路径
  • 成都工字钢公司|工字钢厂家|工字钢现货推荐|四川盛世钢联国际贸易有限公司库存 - 四川盛世钢联营销中心
  • LangGraph 深度拆解:从 Agent Demo 到生产级编排系统
  • 3步解锁网易云音乐格式限制?ncmdump让你真正拥有付费音乐
  • FFXIV ACT插件内存操作技术解析:实现副本动画跳过的自动化处理
  • MATIEC:将工业自动化语言带入开源世界的编译器
  • WinUtil:3步快速完成Windows系统优化与软件管理的终极免费方案
  • AI多角色智能体团队
  • 动态目标跨镜无缝接力追踪技术在危化品应急处置轨迹溯源场景中的应用技术白皮书
  • 宇树科技IPO深度分析:具身智能第一股今日上会