当前位置: 首页 > news >正文

真正替人干脏活累活!华盛顿大学推出JobBench,最强AI只拿45.9

让 AI Agent 真正替人干想甩掉的活!

华盛顿大学联合十多家机构的研究团队,推出了一份叫做 JobBench 的基准测。

这份基准上,最强的 Agent 配置在专家真正想交出去的工作上,只能拿到 45.9% 的分数。

传统基准只问经济价值,JobBench 追问人愿,130 个任务、4,631 条评分标准、36 个模型配置,全部围绕一个核心,测评 Agent 能不能把职场人最想甩掉的那些脏活累活干好。

人愿优先

关于 AI 和职场的关系,过去的讨论几乎全围着钱转。Agent 能吸收多少工时?GDP 有多少暴露在自动化风险下?这些问题驱动了现有基准的设计。

OpenAI 推出的 GDPVal 基准就是这个思路,选经济价值高的任务,测 Agent 能不能独立交付专业成果。

Remote Labor Index 按合同工资衡量端到端的远程工作完成度。

OneMillion-Bench 更直白,400 个专家任务按高级专家工时乘市场工资定价,算 Agent 能可靠交付多少比例的活。

这些基准问的是同一个问题,哪些有经济价值的产出,Agent 现在能独立完成?

这个视角少了一半。

Agent 要和人一起共事,那评价标准就该加上一条,从业者自己想不想把那部分活交出去。

JobBench 把这条当作基准设计的人本约束,专业人士不是等着被替代的劳动力,是领域专家,他们对自己工作的偏好,决定了哪些职责值得自动化。

JobBench 的任务全部建立在 Workbank 调查之上。

Workbank 是一项以劳动者为中心的调查,超过 1,500 名从业者对自己的每一个 O*NET(美国职业信息网络)工作职责打分,1 到 5 分,标明愿不愿意让 AI Agent 接手。

团队把 Workbank 的自动化意愿分数和 OEWS 2024 年度工资总额结合起来量化经济暴露度,从中挑选了 35 个职业。

这些职业同时满足两个条件,从业者的自动化意愿平均分高于 3,且经济暴露度排名靠前。

然后在这些职业中,选取自动化意愿最高的工作职责,加上可行性过滤,要求每项保留的职责可数字化、可评估、有支撑材料,自动化意愿也高于 3,形成任务设计的来源池。

Figure 1 展示了 JobBench 的整体设计流程,从 Workbank 调查到任务构建再到基准评测的全链路。

拿记者举例,Workbank 调查显示,记者最想让 AI 代劳的职责是核查不同来源的参考资料以获取相关事实。

GDPVal 给记者设计的任务只是拿一个已组装好的素材包编辑一篇文章,返回一篇可发布的稿件。

JobBench 要求跨年度核对水质 CSV 数据、EPA 指导文件和监测报告,验证超标情况,识别高风险社区,最后组装一份多部分的编辑方案。

前者测的是编辑能力,后者测的是记者真正花时间、又最想甩掉的交叉验证能力。

资深记者日常面对的,是他们最想交给 AI 的那部分工作。PDF 里翻数据,CSV 里对口径,多条来源互相打架,谁和谁矛盾、缺了哪段数据,这些琐碎又高风险的核查工作,才是记者日常的真正时间黑洞。

再拿律师来说,律师最想交给 AI 的是法规研究和案件结果分析,研究法规条例,用法律先例分析可能的案件结果。

GDPVal 让律师做的是从自包含的事实模式草拟一份备忘录。

JobBench 则要求查询多表 STR 物业数据库,计算每处物业的罚款暴露和收入损失预测,应用 Penn Central 和 Hignell-Stark 判例对镇政府的报价进行分析,起草对比条例表和基于判例法的反提案。

前者是封闭世界的文本输出,后者才是律师日常最耗时也最想脱手的工作。

职场推理

GDPVal 测的是知识交付能力,给 Agent 一份干净的输入,看它能不能产出漂亮的专业文本。

JobBench 测的是专业推理能力,给 Agent 一堆杂乱、互相矛盾的工作材料,看它能不能像资深从业者一样,定位证据、检索来源、交叉比对、消除冲突,然后才写出经得起推敲的产出。

每个 JobBench 任务就是一个仿真办公场景,包含四个要素。

Query,一段职业场景描述,固定上下文和 Agent 必须交付的成果。

Reference files,一组异构来源文档,Agent 必须跨文件阅读和消歧后才能进行所需分析。

Binary Criteria,锚定在可验证数字、事实和有据可查的专业判断上的二元检查项。

Rubrics,推理链,链上节点是标准,链的顺序就是专家为支撑某个结论而走的推理步骤。一条 Rubric 只有当链上每个节点都通过时才获得加权分数,推理链上任何一步出错,整条链得零分。

JobBench 共 130 个任务,覆盖 35 个职业,横跨 10 个 SOC(标准职业分类)组别。

其中主集 65 个任务,简易集 65 个任务。涉及 502 个参考文件、17 种文件格式,每个任务平均 3.9 个参考文件。格式覆盖 CSV、TXT、PDF、XLSX、DB、DOCX、PNG、JSON 等。

主集中 51.7% 的参考文件来自真实世界的公开记录,包括联邦机构发布(CDC、EPA、EIA、Census、USDA、FRED、EEOC)、州和市政门户(城市条例、法院文件、公共健康和采购记录)、学术和科研仓库、开放数据平台(城市开放数据中心、Kaggle、GitHub 数据转储)。

简易集的全部参考文件均来自真实世界,与主集的区别在于,简易集不包含需要 Agent 在线搜索才能发现的隐藏文件,推理挑战也更少。

Figure 2 展示了任务在各职业类别中的分布:

商业与金融运营类占 30 个任务(23.1%),包含人力资源专员、许可审查员、管理分析师、线上商家、个人财务顾问等职业。

办公与行政支持类 24 个(18.5%),涵盖簿记员、法庭书记员、客户服务代表等。

计算机与数学类 19 个(14.6%),有生物统计师、计算机与信息研究科学家、用户支持专家等。

建筑与工程类 15 个(11.5%),包括土木工程师、机械工程技师、石油工程师等。

管理类 13 个(10.0%),有计算机与信息系统经理、医疗与健康服务经理、供应链经理等。

艺术设计与娱乐类 11 个(8.5%),有制作人与导演、技术撰稿人等。

销售类 7 个(5.4%),法律类 3 个(2.3%),生命与社会科学类 4 个(3.1%),教育教学与图书馆类 4 个(3.1%)。

链式评分

评分体系是 JobBench 区别于其他基准的关键设计。

4,631 条二元评分标准,每个任务平均 35.6 条,组成推理链式的 Rubric。

每条标准必须满足四个属性。自包含,一条 Rubric 可以独立判断,不需要继承外部上下文。二元,通过或不通过,没有部分得分。客观,锚定在可验证的事实物或可复现的计算上。无歧义,被检查的对象要精确到两个评分者不会合理地产生分歧。

团队在开发过程中发现,歧义是让不同 LLM 评委对同一答案产生分歧的关键因素,所以精确性要求直接写进了设计原则。

一条 Rubric 的所有节点必须全部通过才得分。推理链上一步出错,后面的步骤再漂亮也不算数。这和资深从业者评审新人的方式一致,结果对但推理过程错,一样打回重做。

拿那个记者任务来说,Agent 正确识别了超标数据,但引用了错误的来源文件来支撑结论,这条 Rubric 就算失败。

Table 2 列出了 JobBench 的核心统计数据:

任务的筛选经过三道质量关卡。

第一道是自动化审计,审计 Agent 检查任务指令与参考文件之间的一致性、任务本身的专业合理性、每条 Rubric 的正确性,不通过的丢弃。

第二道是标注员审核,标注员打磨任务指令、修剪低质量 Rubric,只有获得正面反馈的任务进入下一轮。

第三道是试解,存活的任务用不同 Agent 多次采样运行,按 Rubric 评分,只保留联合通过率覆盖自身 Rubric 集合超过 90% 的任务。

标注员来自两个渠道。Prolific 是一个研究参与者招募平台,平均每个职业有 26.5 名领域专家参与。

Upwork 是一个自由职业市场平台,团队按职业关键词搜索,保留任务成功率超过 90% 的候选人。

选定的专家完成结构化的入职流程后,在标注平台上工作,平台集成了 AI 工具辅助标注并记录使用日志供审查追踪。

最终 71% 的候选任务通过了三阶段质量检查。

纳入基准后,所有 Rubric 的联合通过率达到 95.4%,也就是说超过 95% 的标准至少被某个 Agent 在某次运行中通过,证明这些标准在实践中是可以达成的,不是空中楼阁。

前沿悬殊

36 个模型配置的评测结果,最好的 Claude Opus 4.7 搭配 Claude Code 拿到 45.9%,不到一半。

GPT-5.5 搭配 Codex CLI 拿到 42.7%,GPT-5.4 搭配 Codex CLI 拿到 38.9%。

Claude 和 GPT 家族之外,没有一个配置超过 19 分,Qwen 3.5 Plus 在 OpenCode 下拿到 18.5,MiniMax M2.5 拿到 14.8,Gemini 3 Pro 和 Flash 都停在 11.4,Kimi K2.5 只有 8.73,最弱的 Grok 4.2 Fast 只有 4.38 分。

今天的 Agent 在专家最想让 AI 处理的专业推理任务上,依然犯着大量错误。

和 GDPVal 对比,差距更明显。

GDPVal 的得分已经接近饱和,GPT-5.4 达到 83.0,GPT-5.3 Codex 达到 70.9。

同样的模型在 JobBench 主集上,Codex 得分分别只有 38.9 和 33.7。

工作量上,JobBench 主集同样远超 GDPVal。GPT-5.4 在 Codex 下运行 JobBench 主集的耗时是 GDPVal 的 2.40 倍,工具调用和轨迹事件都上升到 GDPVal 的约 1.3 倍。

脚手架的选择对得分的影响和基座模型一样大。例如 Claude Sonnet 4.6 在 Claude Code 下得分 36.9,换到 OpenClaw 只有 30.6。同样的模型,换个脚手架,差距可以到好几个百分点。

推理投入和得分正相关。

Figure 6 显示,GPT-5.4 在 Codex 下从低推理投入提升到超高推理投入,JobBench 主集得分从约 31.9 单调增长到 38.9,提升了 7.0 个百分点。推理越多想越久,分数越高,符合直觉,但即便拉满推理投入,离满分依然遥远。

成本方面,Figure 5(A) 画出了推理成本与得分的散点图。Opus 4.7 在 Claude Code 下跑完全部任务推理成本约 210 美元,是 GPT-5.5 在 Codex CLI 下 44 美元的约 5 倍。GPT-5.5 在中等价位上以 42.7 分领先,性价比突出。最低成本配置是 GPT-5.3 Codex 在 Codex CLI 下的 32 美元。Opus 4.7 是唯一超过 43 分的配置,但价格是 GPT-5.5 的近 5 倍。

还有一个值得玩味的发现。团队分析了 3,516 篇 Agent 相关的 arXiv 论文摘要(2025 年 4 月至 2026 年 3 月)和 2,283 家 YC 创业公司的描述(2006 至 W26 批次),用 GPT-5.4-mini 将它们映射到 JobBench 覆盖的 35 个高意愿职业上。

结果是,学术界和创业圈的关注度与模型能力呈负相关,论文的 Pearson 相关系数为 -0.15,YC 公司为 -0.34。

R&D 象限(高意愿、低能力)获得的注意力是 Sweet Zone(高意愿、高能力)的 1.56 倍(论文)和 1.62 倍(YC)。

Agent 还做不好的地方吸引了更多关注,已经具备能力的领域没有被充分推广和落地。

JobBench 基准要做的,就是把 AI 在职场的目标从替代转向增强,构建 Agent 去做人真正想交出去的工作,而不只是最有经济价值的工作。

最好的 Agent 应该是替你完成你手边那些脏活累活的 AI。

参考资料:

https://job-bench.github.io/

https://github.com/Job-Bench/job-bench-eval

https://arxiv.org/pdf/2605.26329v1

http://www.gsyq.cn/news/1455979.html

相关文章:

  • 从10美元鼠标到macOS生产力利器的技术蜕变:Mac Mouse Fix深度解析
  • 为什么Palmer Penguins是数据科学入门的最佳选择:终极指南
  • 2026 AI自动化采集实战:如何用 Claude Code 进行网络爬虫?
  • 2026 潍坊卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • 2026 泉州卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • 重复内容渲染优化:从计算复用到图像空间与场景描述双路径实践
  • 2026 沧州卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • IEA-15-240-RWT:15MW海上风电参考模型的工程化实践与架构演进
  • 2026 金华卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • DIY路由器UPS:用18650电池打造零切换不间断电源
  • 告别激活烦恼:KMS_VL_ALL_AIO智能激活工具全攻略
  • 10分钟搞定foobar2000终极美化:从单调到专业音乐中心的完整指南
  • 车牌+司机人脸双检系统(带口罩判断)|YOLOv5s轻量模型+PyQt交互界面+万张对齐标注图
  • 给rsyslogd上个‘紧箍咒’:手把手教你用systemd限制日志服务内存,防止它‘撑爆’你的VPS
  • 从理论到部署:e5-small-v2文本嵌入模型全生命周期实践指南
  • OpenCore Legacy Patcher图形化解决方案:让老旧Mac重获新生的完整指南
  • UIScrollView 深度原理:偏移机制、惯性减速算法、嵌套滑动冲突终极解决方案
  • 终极IDM激活解决方案:开源脚本技术解析与实战指南
  • 终极指南:如何让老款Mac焕发新生,轻松安装最新macOS系统
  • 电路设计入门:从欧姆定律到PCB实战全流程指南
  • 意义行为原生论的哲学史坐标与体系展开岐金兰2026年06月03日
  • 3个真实场景告诉你:为什么你的纸质文档需要这个开源文档管理系统
  • STL到STEP转换架构设计:轻量级高性能3D模型格式互通解决方案
  • YOLOv11+DeepSeek多技术融合电网缺陷巡检平台|绝缘子破损瓷瓶故障AI识别、前后端一体化电力运维管理系统落地开发
  • 炉石传说HsMod插件:解锁游戏潜能的55项实用功能指南
  • ZFX山海证券:“指数上涨依赖科技龙头”
  • 基于Adam梯度下降与决策树的车辆最优滑移率在线估计与控制
  • ESP8266天线辐射模式实测:低成本方案优化Wi-Fi信号稳定性
  • 5个颠覆性自动化实战技巧:彻底改变你的数字工作流
  • Nintendo Switch帧率解锁终极指南:FPSLocker深度配置与实战优化