当前位置: 首页 > news >正文

LLM Agent 怎么测评:IBM+Yale 评测综述与 2026 三条新范式

摘要

静态 LLM 评的是「答对没有」;Agent 评的是「在动态环境里,能不能通过一连串决策把事做成」。IBM Research 与 Yale 等在2026 年 4 月更新的 v2 综述(arXiv:2503.16416)把 Agent 评测拆成五层:核心能力(规划 / 工具 / 自反思 / 记忆)→ 应用 benchmark(Web / SWE / 科研 / 对话)→ 通用 Agent → benchmark 设计维度 → 开发者评测框架(LangSmith、Langfuse 等)。综述指出行业正从「静态、易饱和的单点 benchmark」转向更真实、可持续更新的 live evaluation,并强调必须解耦backbone LLMAgent Harness(脚手架)的贡献。2026 年三篇跟进工作则从三个方向补洞:AgentAtlas(2605.20530)提出控制决策六态 + 轨迹失败九类 taxonomy,证明「只看最终成功率」会系统性误导;Claw-Eval(2604.06132)用三通道轨迹审计 + 300 人工校验任务,显示仅看输出的 LLM Judge 会漏掉44%安全违规;LiveAgentBench(2603.02586)以104个真实场景、374条任务动态评测,最好商业 Agent(Manus)成功率仅35.29%,人类可达69.25%。本文以综述为骨架,用三篇 2026 论文说明「2026 年该怎么评 Agent」。

Survey on Evaluation of LLM-based Agents


一、为什么评 Agent 不能沿用评 LLM 的老办法?

LLM 评测的主流范式是:给定输入,检查输出是否匹配标准答案或 rubric。Agent 则多了一步——它要在动态环境里做序列决策:选工具、改状态、多轮对话、失败后恢复。Yehudai 等(IBM Research + Yale)在综述开篇点明:评测对象从「文本生成质量」变成「任务完成路径 + 中间行为是否合规」。

三个现实痛点在 2025–2026 被反复验证:

成功率虚高:综述附录 E.2 称 SWE-bench Verified Top 性能已约80%(接近饱和);WebArena 动态环境 Top 约74.3%(2026 年 2 月提交)。但 SWE-bench Pro 在41个仓库、1865个经人工校验的长程任务上,正文 §3.2 仍写 Pass@1低于 25%(附录 E.2 则更新称 Pro SOTA 约46%——需随模型迭代注明时间戳)——说明「修 familiar bug」与「做 hours 级多文件改动」不是同一回事。
脚手架混淆模型能力:AgentAtlas 报告,OSWorld 上同一 agent-s3 + GPT-5 组合,单从次运行切到 best-of-10,分数可从65.6%涨到69.9%;CCBench 上 Claude Code 不同版本跨度达50.8个百分点。排行榜越来越像「系统工程分」,而非纯模型分。
静态 benchmark 快速饱和:BFCL 从 v1 演进到 v4、SWE-bench 衍生 Verified / Pro 家族,本质都是在对抗数据污染、任务过易、评测协议过松

Yehudai 综述的 Figure 1 用一棵「能力 → 应用 → 通用 → 维度 → 工具链」的树,把 2023–2026 初上百篇 benchmark 与评测平台挂到同一坐标系上——后文所有「该用哪个 benchmark」的讨论,都建议先在这张地图里定位。

图 1:评测综述的五层结构(能力 / 应用 / 通用 Agent / benchmark 维度 / 开发者框架)。来源:原论文 Figure 1。

1.1 评测对象:LLM、Harness、还是整个系统?

综述 v2 特别强调Decoupling LLM & Harness Evaluation。一次 Agent 跑分至少混了三样东西:

组件是什么单独评测的意义
Backbone LLMGPT / Claude / Qwen 等基座隔离「模型本身」的推理与工具调用能力
Agent HarnessLangGraph / 自研编排、记忆、重试策略隔离「框架与脚手架」带来的增益或损耗
工具与环境MCP Server、Docker 沙箱、浏览器隔离「外部接口稳定性」对分数的影响

Harbor、Exgentic、CUBE(2603.15798)等 2026 工作正试图用统一协议让同一 harness 跨 benchmark 复跑——这是框架测评走向可复现的前提。

微信号iamxxn886· 备注「论文」


二、第一层:四大核心能力怎么评?

综述 §2 把 Agent 必备能力拆为Planning、Tool Use、Self-Reflection、Memory。每一类都有从「单步能力」到「长程 Agent 工作流」的 benchmark 梯度。

2.1 规划与多步推理

早期用 HotpotQA、GSM8K 等推理集间接测 Agent;PlanBench 把经典规划任务搬进 LLM 语境,暴露长程规划短板。2026 新增的 DeepPlanning(2601.18137)强调带可验证约束的长 horizon 规划——即使 SOTA 模型,在「步骤多、约束硬」的设置下仍频繁失败。

2.2 工具调用:从单步 API 到 MCP 长程交互

工具评测经历了三代演进,综述梳理如下:

阶段代表 Benchmark测什么局限
单步函数调用ToolAlpaca、API-Bank、BFCL v1意图识别、函数选择、参数映射缺多轮状态
多步有状态BFCL v2/v3、NESTFUL、ComplexFuncBench依赖前序调用的链式工具、隐式参数仍偏合成环境
真实 MCP 长程MCP-Atlas(2602.00933)、Tool-Decathlon真实 MCP Server、多域长任务前沿模型仍远未饱和

BFCL 已成为 tool-use 事实标准;但综述提醒:单轮调用分数高,不等于 Agent 在 20 步工作流里不会选错工具或遗忘状态

2.3 自反思与记忆

自反思评测多把现有 benchmark 改成多轮反馈环(LLF-Bench、Reflection-Bench),但缺乏统一标准仍是综述指出的 gap。记忆方面,LoCoMo、MemGym、MemoryArena(2602.16313)等把焦点从「聊天记名字」转向Agent 执行过程中动态形成的记忆——更接近生产环境。

图 2:综述 §5 benchmark 五维分析相关章节。来源:原论文 PDF 章节页(非独立 Figure 编号)。


三、第二层:按应用场景选 Benchmark

综述 §3 用四个「主战场」覆盖大部分工程需求。下表是精简版选型表(数字均来自各 benchmark 原论文或综述引用):

场景代表 Benchmark环境特点关键数字 / 备注
Web AgentMind2Web(静态)、WebArena(动态)GUI / 浏览器WebArena 2026 初 Top 约74.3%;Mind2Web 偏动作匹配
SWE AgentSWE-bench Verified / Pro / Terminal-BenchDocker 代码库Verified500题;Pro Pass@1<25%
科研 AgentScienceAgentBench、PaperBench、AAAR-1.0代码 + 实验设计ResearchCodeBench 等约37%量级(见 auto-research 综述,非 Yehudai 正文数字)
对话 + 工具τ-bench、τ²-bench模拟用户 + APIτ² 引入电信域共享动态环境;IntellAgent 可合成场景

动态 vs 静态环境是选型第一原则:Mind2Web 等静态轨迹不会惩罚「早期错一步、后面全崩」的复合失败;WebArena、SWE-bench Docker 环境才能测长程状态依赖。


四、第三层:通用 Agent 与 benchmark 设计维度

4.1 通用 Agent:单 benchmark vs 统一平台

两条路线并行:

单套综合题:GAIA(原论文165题真实世界问答)、GAIA2(移动 App 环境)、OSWorld / AppWorld(跨应用桌面操作)。GAIA 易子集已饱和,难例仍具挑战。
多 benchmark 统一排行榜:AgentBench(多环境交互)、HAL(跨域 + 成本感知)、Harbor + CUBE(容器化 + 标准接口)。

LiveAgentBench 可视为第三条路——从社交媒体真实用户问题出发,用 SPDG(Social Perception-Driven Data Generation)流程持续产题,对抗数据污染。

4.2 五个正交维度:设计 benchmark 的检查清单

综述 Table 1 用五维对比代表 benchmark(节选复现):

Benchmark数据策展环境接口指标安全
SWE-bench Verified混合 + 人工动态Code单元测试
WebArena混合动态GUI混合
τ-Bench混合动态Tools状态匹配
GAIA人工动态混合答案匹配
PaperBench混合动态Code端到端

五个维度含义:

Data:人工 / 合成 / 混合;GAIA 坚持人工出题保证「对人简单、对 Agent 难」。
Environment:静态轨迹 vs 可改变状态的动态沙箱。
Interface:Code / Tools / GUI 三种主流交互面。
Metric:单测、状态匹配、答案匹配、端到端 rubric——指标选错可让分数偏差 100%(见 Establishing Best Practices, 2507.02825)。
Safety:仅 τ-Bench 等少数显式测策略合规;多数 benchmark不惩罚删库式「成功」。


五、第四层:开发者评测框架与 2026 新范式

5.1 综述 §6:LangSmith 们评的是什么?

综述 Table 2 对比主流观测评测平台(不是 LangGraph/CrewAI 编排框架):

平台逐步评估监控轨迹评估HITL合成数据A/B
LangSmith×
Langfuse××
Vertex AI Eval××
Arize×
Patronus AI×
Mosaic AI×

三类评估粒度:

  1. Final Response

    :快、便宜,适合回归测试,但看不见中间步骤

  2. Stepwise

    :逐步 judge 工具选择、参数、路由——Arize Phoenix 有 routing/planning 模板。

  3. Trajectory

    :对照 gold path 或 LLM judge 评整条路径——LangSmith / Vertex 支持 exact / partial / subset 匹配。

综述指出的框架层 gap:缺安全合规内置指标、缺跨 trace 根因分析、LLM Judge 规模化成本未计入

图 3:综述 Table 2 开发者评测平台能力对比。来源:原论文 Table 2 所在页。

5.2 AgentAtlas:别只看排行榜最后一列

AgentAtlas(UCSC + MIT,2026-05)不发布新 leaderboard,而是回答:你的分数到底在测哪种行为?

控制决策六态(任何工具型 Agent 都该显式打分):

状态含义典型失败
Act信息充分、可安全执行过度犹豫
Ask任务欠指定,应先澄清盲目开干
Refuse越权 / 有害错误放行
Stop已完成或应终止无限循环
Confirm不可逆操作需确认直接执行
Recover失败后应修复而非硬闯无视错误继续

轨迹失败九类(继承 AgentRx 标签 + 两层扩展:错误来源 × 影响)。

15个 benchmark 做六轴覆盖审计(0/1/2 分):Tool 执行覆盖最好(9/15 强覆盖);Control 决策Trajectory多为弱覆盖;Efficiency无一 benchmark 强覆盖。

实证演示(1342条合成题、8个模型)的核心发现:

• 给模型显式标签菜单时,控制准确率集中在0.87–0.95,模型看起来差不多。
• 去掉标签菜单后,轨迹诊断准确率全体下降 14–40 个百分点,且收敛到0.54–0.62窄带——测的更像 prompt 监督,而非真实诊断力
没有模型能在控制、轨迹、工具上下文三个轴同时领先;τ-bench 上 Pass@1 冠军(Claude Opus 4.5,0.70)与 Pass@4 冠军(Qwen3.5,0.56)不是同一个。

Ask-or-Assume 案例:在欠指定的 SWE-bench Verified 子集上,不确定性感知 scaffold 通过选择性提问把分辨率从61.2%提到69.4%(+8.2pp)——说明「会不会 Ask」本身应是评测维度。

图 4:AgentAtlas 控制决策六态与 15 个 benchmark 覆盖分析示意。来源:AgentAtlas 论文。

5.3 Claw-Eval:可信评测需要「三条证据链」

Claw-Eval(北大 + 港大,2026-04 v3)针对综述仍缺的轨迹不透明、安全/鲁棒性嵌入不足、模态覆盖窄三件事,给出可落地协议:

架构:Setup → Execution → Judge 三阶段,执行与评分时间隔离,防止 Judge 信息泄露。

三通道证据(缺一不可):

  1. 结构化 execution trace
  2. 服务端 audit log(Agent 对话里看不到)
  3. 执行后环境 snapshot

任务300题、9类、2159条可独立验证 rubric 项;三分支——General 服务编排(161)、Multimodal 感知生成(101)、Multi-turn 专业对话(38)。

三维评分:Completion × Safety(乘性门控)× Robustness(注入错误后的恢复率);每题3次 trial,报告 Score / Pass@3 / Pass^3。

Claw-Eval 在14个前沿模型上的 headline 结果:

发现数字含义
轨迹不透明 Judge 不可靠漏检44%安全违规、13%鲁棒性问题仅给对话 transcript 不够
能力 ≠ 一致性Pass@3 稳定,Pass^3 在错误注入下最多降24pp部署要看 Pass^k
多维排名分裂Opus 4.6 Overall Pass^370.4%最高;Sonnet 4.6 Score81.4%最高峰值与可靠不是一回事
Multimodal 仍是短板Multimodal Pass^3 最高25.7%(GPT-5.4)文本工具强 ≠ 视觉 Agent 强
多轮对话提问质量与 Pass^3 相关r=0.87;轮数相关r=0.07评对话 Agent 要看问什么,不是聊多久

图 5:Claw-Eval Setup / Execution / Judge 与三通道证据。来源:Claw-Eval Figure 1。

5.4 LiveAgentBench:真实场景 + 动态更新

LiveAgentBench(Ant Group,2026-03)补的是综述 §7.1 强调的Live Benchmarks路线:

104场景、374任务(125 验证 / 249 测试),来源为知乎、Quora、Stack Overflow、短视频等真实用户问题
SPDG标准流程:筛选不可检索、必须依赖工具 → 专家改闭式答案 → 双盲标注 + 第三人仲裁
• 覆盖 GAIA / AgentBench缺少的能力:Android/iOS 操作、音视频理解、浏览器 + 文件 + 多模态组合
• 支持定期更新,降低训练集污染风险

LiveAgentBench 整体结果(Pass@1,百分比):

对象Overall备注
LLM 平均~13.48%纯模型几乎无法独立完成
Agent 产品平均~23.85%论文称 Agent 相对 LLM 平均高约56.51%(摘要 relative improvement 表述)
Manus(最佳 Agent)35.29%仍远低于人类
AWorld 框架15.51%11.76%任务因不稳定直接失败
人类69.25%真实任务天花板参考

Gemini-2.5-pro 在 LLM 中最高(16.85%),但不及 Manus 一半——说明真实世界 Agent 评测与 GAIA 类学术榜分化明显。

LiveAgentBench 还按能力维度暴露短板(节选 Overall 正确率,%):

能力维度Manus人类差距解读
Video16.080.0音视频理解仍是 Agent 盲区
Audio33.3373.33同上
Image35.2960.50多模态弱于文本/File
Text / File28.40 / 37.8573.33 / 64.20工具链稳定时仍难追人

论文还指出:工具稳定性对 Agent 分数影响大于模型本身——AWorld 约11.76%任务因框架不稳定未执行完毕;AWorld Overall15.51%,与商业 Agent 产品整体相差约8.34个百分点(摘要表述为 AWorld vs other agents)。

图 6:LiveAgentBench 从真实用户案例到评测集的构建概览。来源:LiveAgentBench Figure 1–2。


六、2026 工程向评测 Playbook

把综述 + 三篇 2026 论文合成一套可执行 checklist:

6.1 先定「评什么」

目标推荐组合
工具调用基线BFCL v4 + MCP-Atlas 子集
编码 AgentSWE-bench Verified(回归)+ Pro 子集(压力)
Web / 桌面WebArena 或 OSWorld + 报告 scaffold 配置
对话 + 策略τ²-bench(Pass@1Pass@4 都报)
真实用户任务LiveAgentBench 或自建 SPDG 式闭式答案集
上线前审计Claw-Eval 风格三通道 + Safety 乘性门控
行为诊断AgentAtlas 六态 + 九类轨迹标签

6.2 再定「怎么评才公平」

固定三角:同一 backbone 模型 + 同一工具集 + 同一 token/时间预算
至少报三个数:成功率(或 Pass@k)、成本(token / 美元 / 延迟)、一致性(Pass^k 或 trial 方差)
拆开 LLM 与 Harness:同一模型换框架、或同一框架换模型,只做单因子变化
拒绝轨迹黑盒:Final answer judge 仅作 smoke test;关键路径必须 step / trajectory 级证据
嵌入失败注入:Claw-Eval 显示 HTTP 429/500 注入下 Pass^3 暴跌而 Pass@3 几乎不动——生产必测鲁棒性
动态刷新题池:静态榜饱和后迁移到 LiveAgentBench / BFCL 新版本 / SWE-bench Pro

6.3 综述仍指出的未解 gap

Yehudai v2 §7.2 与三篇 2026 论文共同指向:

细粒度指标标准化仍缺(AgentAtlas 在补 vocabulary,不是最终 score)
成本效率rarely 与准确率同列(HAL 是少数例外)
安全合规多数 benchmark 仍后置
Harness 解耦协议刚起步(Harbor / CUBE)
LLM Judge 成本与偏差未纳入评测 meta-metrics


七、局限与如何使用

综述局限:2026 年 4 月 v2 已是该领域最新总综述,但 Agent 评测仍快变;作者维护 GitHub 追踪库 持续更新文献。

AgentAtlas 局限:§7 演示集由单一 Claude Opus 4.7 生成标签,绝对分数不宜与 HAL / AgentRx 直接横比;定位为measurement protocol,非替代 GAIA / SWE-bench 的新榜。

Claw-Eval 局限:300 题覆盖仍有限;Multimodal 对 9 个视觉模型子集评测;Judge 仍部分依赖 Gemini-3-Flash。

LiveAgentBench 局限:闭式字符串匹配简化评测,对开放生成报告类任务覆盖不足;部分场景依赖中国互联网数据源,跨区域泛化需验证。

建议使用顺序

  1. 通读 Yehudai 综述 Figure 1 + §5 维度表,建立 benchmark 地图
  2. 按业务场景从 §3 表选 1–2 个主 benchmark + 1 个 stress benchmark
  3. 上线前参照 Claw-Eval 补轨迹审计与安全/鲁棒性
  4. 用 AgentAtlas taxonomy 做「我们的榜到底缺哪几个行为轴」自查
  5. 季度性加入 LiveAgentBench 或自建 SPDG 题池做 drift 检测

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.gsyq.cn/news/1572507.html

相关文章:

  • 北京钻石黄金回收,收的顶持证鉴定师,全程无损测金 - 奢侈品回收测评
  • 汽车领域查询理解:模块化两阶段架构的工程实践与优化
  • 三步解锁您的QQ音乐收藏:终极免费解密工具让音乐重获自由
  • 深入解析Oracle中的JSON数据处理
  • 2026年无漆木门深度测评:如何为你的家装匹配最佳方案? - 资讯速览
  • Navicat重置脚本:轻松实现macOS数据库工具的无限试用
  • 摄影大赛投票活动完整落地方案(从筹备到避坑全流程) - 投票评选活动
  • Angular + Electron 桌面应用从零搭建避坑指南
  • 领域上下文注入:大语言模型安全边界的专业术语挑战与防御
  • EA3131开发板NAND Flash启动全流程:从UART加载到固件烧录
  • 2026 年广东工业甲醇及醇基燃料实力供应商口解析 - 品研笔录
  • 嘉兴南湖区黄金回收实测:六家机构报价与流程横评 - 上门黄金回收
  • 现场客户端:Avalonia 客户端和统一入口
  • SolidJS + Supabase 认证实战:轻量全栈响应式登录方案
  • macOS Ruby环境搭建:绕过SIP、CLT和Homebrew陷阱
  • MPC5744P BIST实战:汽车MCU硬件自检原理与配置详解
  • 苏州闲置黄金怎么变现?正规回收门店对比,资质齐全更安心 - 奢侈品回收测评
  • 九大网盘直链下载助手:告别限速困扰,实现高速下载自由
  • 2026靠谱瑞祥商联卡回收平台推荐|实测无坑变现指南(个人/企业通用) - 资讯速览
  • 基于低维几何嵌入与中心估计的流行病源头定位算法解析
  • Hermes Agent:架构级复盘机制实现智能体自主成长
  • 基于逻辑博弈的修正SHAP:解决特征依赖的可解释AI新方法
  • DeepSeek-V4 MoE架构解析:CSA+HCA路由与CSWAR显存优化
  • Titans:Google大模型内存管理基础设施解析
  • 因为一个OTA升级没加密,我被客户追着骂了半个月
  • 实测宁波翡翠实体:线上报价与到店价差差异 - 奢侈品回收评测
  • 7B小模型如何通过GRPO实现高精度推理优化
  • KrkrzExtract:5分钟上手,让视觉小说资源处理变得简单高效
  • 崩坏星穹铁道自动化终极方案:三月七小助手让你每天多玩2小时
  • Mermaid Live Editor:3分钟从代码新手到图表专家的神奇之旅