当前位置: 首页 > news >正文

大模型幻觉怎么量化评测:攒用例打分

先把结论甩前面:幻觉没法靠"感觉不错"来管,得攒一套带标准答案的用例集,每条按维度打分,跑出一个能横向比较的数字。下面是我自己折腾出来的一套打分流程,照着做就能落地。

背景是这样。我们组用 RAG 接了一个内部知识库给客服用,上线第二周就被投诉——它把"7天无理由"答成了"15天",文档里明明白白写的7天。当时我看日志,后台没报错,模型一脸自信,这种最坑。光靠人肉抽查根本兜不住,所以我决定把幻觉这事量化掉。

第一步:攒用例,别凭空想

用例从哪来?我没编,直接扒了三个月的真实客服对话,挑出80条带明确事实答案的问题。每条记三样东西:

  • question:用户原话

  • gold:标准答案(从知识库原文里抠出来,精确到数字/日期/条款)

  • context:这条问题对应的知识库片段

80条不多,但够看出问题了。一开始我贪心想搞500条,后来发现标注标准答案太费人——光这80条我和同事对了一下午,争论"算不算幻觉"的边界。所以建议起步别贪,先跑通。

第二步:定打分维度

幻觉不是非黑即白。我拆成四个维度,每条用例每个维度打0/1/2三档:

维度

含义

0分

1分

2分

事实一致

答案和gold对不对得上

编造/矛盾

部分对

完全一致

上下文忠实

有没有脱离context瞎发挥

凭空捏造

掺了外部信息

严格基于context

拒答合理

不知道时敢不敢说不知道

硬编

含糊带过

明确说查不到

引用可溯

答案能不能指回原文

无来源

来源模糊

给出具体片段

第三档"引用可溯"是后加的。第一版我没要,结果发现模型答得对、但你不知道它凭啥对,出了错也甩不清责任,补上之后排查快多了。

第三步:自动打分 + 人工兜底

80条×4维度=320个格子,手填会疯。我用一个裁判模型批量打,prompt 大概长这样:

JUDGE = """你是评测员。对照gold和context给answer打分。 维度: 事实一致/上下文忠实/拒答合理/引用可溯 每个维度输出0/1/2和一句理由,JSON返回。 question: {q} gold: {gold} context: {ctx} answer: {ans} """ # 跑完导出 csv,人工只复核裁判给0分的那些

裁判模型也会幻觉(套娃了属于是),所以凡是打0分的我都人工复核一遍,大概占15%,半小时搞定。全自动我不敢信。

第四步:算总分,横向比

每条用例满分8,80条满分640。我把基线模型、换提示词后、加了重排序后三个版本各跑一遍:

版本

总分

事实一致均分

拒答合理均分

基线

478

1.42

0.91

改提示词

511

1.55

1.38

加重排序

573

1.78

1.51

最大的提升来自"拒答合理"那列——从0.91干到1.51。说白了之前的版本太爱不懂装懂,加了一句"context里没有就说查不到"的约束,7天/15天那种胡答直接少了一大半。

一点真实感受

这套跑下来最大的收获不是分数,是终于能拿数据跟人吵架了。以前说"我觉得这版好点",虚;现在直接甩表,573比478,谁也别犟。

顺带说个偷懒的事。我自己没有去搭一整套评测后台,而是用了那种零代码就能拖出一个智能体的工具,把"读用例—调模型—裁判打分—回填表格"配成一条流水线。不用写调度、不用管部署,拖几个节点连起来,空了改改prompt再重跑一轮。它干的就是这种重复杂活,真要做精细的统计分析还得自己导出来用pandas算,这点别指望它。但攒用例跑分这种活,省了我至少两天搭框架的时间。

(裁判模型和被测模型的API我都走的讯飞星辰MaaS,现成调,没自己部署算力)

幻觉这东西大概率消不干净,但能量化就能管。你们是怎么评的?评论区聊聊你踩过最离谱的一次模型胡说。

http://www.gsyq.cn/news/1590385.html

相关文章:

  • BKM系统有限间隙解:用射流密度近似KdV与Camassa-Holm方程
  • 宝丽金APP的本金核定减损工作已开展,请速登记办理。
  • 数据治理平台怎么选?五家头部产品核心能力、技术路线与落地场景全解析
  • 【观止·诗史汇 HarmonyOS 实战系列 04】诗文内容包:从 Markdown 到可检索的本地诗库
  • 可组合型数据团队:AI时代的数据交付新范式
  • Stable Diffusion提示词工程实战:从结构编码到动态权重调度
  • 5款英文降AI率平台实测推荐
  • 数据治理平台效能升级:五大厂商多智能体协同与全链路自动化水平全景扫描
  • 翻译公司视频口译八强榜单:视频口译多场景覆盖全
  • LangGraph图编排原理与实战:构建可调试可扩展AI Agent系统
  • gc触发crash,根因却是unsafe
  • Bright Data AI Agent VS 传统爬虫开发
  • 看完就会:盘点2026年好评如潮的的AI智能降重工具
  • Activity Host 作为确定性编排与认知智能代理的桥梁
  • Python实战:Excel箭头取值算法,一次解决上下查找匹配问题
  • OpenGL学习笔记-03-VBO/VAO
  • LeetCode 3737.统计主要元素子数组数目 I:枚举+计数
  • 基于SpringBoot的校园社团管理与发展态势分析系统
  • 快速搭建MQTT服务器:5步搞定
  • 2轴舵机控制板
  • 被需要的感觉,会上瘾
  • 为什么pandas读Excel日期列全是浮点数字?
  • 企业级AI落地实操指南:Copilot Studio与Azure AI Search深度集成
  • 想住阳朔遇龙河民宿?这几家凭啥成游客首选,速来揭秘!
  • go: Push Pull Pattern
  • T140 风扇噪音大 竟然电池原因
  • 第5篇:《DC-DC电感啸叫排查:饱和电流选小,满载电流波形畸变》
  • 激动的心颤抖的手 真的领到了8元
  • DCU深度技术报告_下篇_性能复盘与研发经验总结
  • PDFSlideshow使用教程,PDF转幻灯片演示工具绿色版下载