当前位置：首页 > news >正文

评测 Harness 设计：让模型对比从手工表格变成可复跑流程

news 2026/7/3 23:14:09

评测 Harness 设计：让模型对比从手工表格变成可复跑流程

模型评测如果靠手工脚本和表格，很快会失控。今天改了 prompt，明天换了模型，后天更新了测试集，最后没人知道哪次结果能复现。评测 Harness 的价值，是把数据、模型、推理参数、指标和报告生成统一到可复跑流程中。

可复现评测不是形式主义，它直接决定模型对比结论是否可信。

一、Harness 要固定五类输入

flowchart TD A[Dataset Version] --> F[Eval Harness] B[Model Version] --> F C[Prompt Template] --> F D[Inference Config] --> F E[Metric Code] --> F F --> G[Report]

只记录模型名不够。温度、top_p、max_tokens、prompt 模板和指标代码都会影响结果。

二、配置要能完整复现一次评测

run: id: eval_20260703_001 dataset: nlp_eval_v4 model: model_a_0701 prompt_template: qa_cot_v2 inference: temperature: 0 max_tokens: 512 metrics: - exact_match - f1 - citation_accuracy

每次评测生成一个 run id，所有产物都挂在这个 id 下。后续看报告时，能反查完整配置。

三、原始输出要保存

只保存最终分数不够。模型输出、解析后答案、错误类型都要留存，方便误差分析。

{ "sample_id": "q_1024", "raw_output": "...", "parsed_answer": "B", "gold": "C", "is_correct": false, "error_type": "reasoning_error" }

没有原始输出，就无法判断错误来自模型推理、格式解析还是评测脚本。

原始输出还可以帮助检查评测脚本是否过度严格。例如模型回答了正确选项但格式不符合解析规则，这类错误应该归到输出格式问题，而不是模型知识错误。没有样本级记录，就无法做这种区分。

四、报告要支持差异分析

模型对比不应只看总分。需要按任务类型、长度区间、难度、领域分组比较。

report_sections: ├── overall score ├── score by task ├── score by length bucket ├── regression samples ├── improved samples └── cost and latency

一个模型总分略高，但在关键业务子集退化，未必值得上线。分组分析能让决策更稳。

差异分析还要输出 regression samples，也就是新模型比旧模型答错的样本。只看提升样本会产生选择性偏差。真正有价值的是知道新模型在哪些能力上退步。

五、总结

评测 Harness 要把数据版本、模型版本、prompt、推理参数、指标代码和原始输出全部纳入可复跑流程。报告不仅给总分，还要支持差异分析。

模型对比不能靠手工表格堆出来。可复现流程越扎实，评测结论越能经得起复查。

当评测 Harness 稳定后，模型升级就可以进入类似 CI 的流程：提交候选模型，自动跑基准集，生成报告，再由人工审阅关键退化样本。

这能减少主观试用带来的偶然性，让模型迭代更像工程流程。

查看全文

http://www.gsyq.cn/news/1630109.html

MuleSoft企业级LLM编排：构建可审计可治理的AI中台

如何快速将B站缓存的m4s视频转换为mp4格式：完整指南

USB款4G断电报警器：无需流量卡，低成本电力监控神器

AI提效工具实战：50个场景提升工作与生活效率

Adobe Downloader 终极指南：macOS 上轻松获取Adobe全家桶

构建厂商无关的深度学习实验环境：解耦GPU硬件与训练代码

小红书内容采集与批量下载神器：XHS-Downloader完整使用指南

PyCharm集成Selenium：构建高效Web自动化测试工作流全攻略

如何在Steam Deck上轻松整合所有游戏平台：NonSteamLaunchers终极指南

STM32与CS2200-CP构建高精度计时系统指南

Unitree Go2 ROS2 SDK开发实战：如何为四足机器人构建智能导航系统？

具身智能仿真平台选型指南：Isaac Sim、MuJoCo与Gazebo核心对比

一键保存全网小说：novel-downloader 离线阅读终极解决方案

JUnit 5 vs TestNG：Java自动化测试框架深度对比与Selenium集成实战

ApiPost实战：巧用变量与脚本破解接口依赖，实现自动化测试

Midscene.js：基于AI视觉的零代码自动化测试与RPA实践指南

DC-DC降压转换系统设计与PIC微控制器应用

鸿蒙HarmonyOS NEXT ArkTS 深度实践：Tabs 自定义切换动画完全指南

如何免费解锁IDM完整版：终极激活指南

GitHub加速插件完全指南：3分钟解决国内访问卡顿问题

RoosterJS富文本编辑器XSS防御实战：从净化到CSP的多层安全策略

6DoF运动追踪：IMU与MCU硬件配置及数据融合实战

Qwen-code Web界面：从终端焦虑到优雅交互的实践指南

终极Steam挂卡指南：Idle Master完整使用教程，轻松获取所有交易卡片

终极狩猎助手：HunterPie让你的《怪物猎人：世界》战斗数据一目了然

性能测试实战：从需求到瓶颈定位的完整指南

KeymouseGo：三分钟掌握跨平台自动化，彻底告别重复性工作

联想拯救者BIOS高级设置一键解锁工具：3分钟开启隐藏功能终极指南

M95M04 EEPROM与PIC18LF47K42嵌入式存储方案详解

QtScrcpy终极指南：如何在电脑上免费流畅控制安卓手机