当前位置：首页 > news >正文

真正替人干脏活累活！华盛顿大学推出JobBench，最强AI只拿45.9

news 2026/6/3 21:13:32

让 AI Agent 真正替人干想甩掉的活！

华盛顿大学联合十多家机构的研究团队，推出了一份叫做 JobBench 的基准测。

这份基准上，最强的 Agent 配置在专家真正想交出去的工作上，只能拿到 45.9% 的分数。

传统基准只问经济价值，JobBench 追问人愿，130 个任务、4,631 条评分标准、36 个模型配置，全部围绕一个核心，测评 Agent 能不能把职场人最想甩掉的那些脏活累活干好。

人愿优先

关于 AI 和职场的关系，过去的讨论几乎全围着钱转。Agent 能吸收多少工时？GDP 有多少暴露在自动化风险下？这些问题驱动了现有基准的设计。

OpenAI 推出的 GDPVal 基准就是这个思路，选经济价值高的任务，测 Agent 能不能独立交付专业成果。

Remote Labor Index 按合同工资衡量端到端的远程工作完成度。

OneMillion-Bench 更直白，400 个专家任务按高级专家工时乘市场工资定价，算 Agent 能可靠交付多少比例的活。

这些基准问的是同一个问题，哪些有经济价值的产出，Agent 现在能独立完成？

这个视角少了一半。

Agent 要和人一起共事，那评价标准就该加上一条，从业者自己想不想把那部分活交出去。

JobBench 把这条当作基准设计的人本约束，专业人士不是等着被替代的劳动力，是领域专家，他们对自己工作的偏好，决定了哪些职责值得自动化。

JobBench 的任务全部建立在 Workbank 调查之上。

Workbank 是一项以劳动者为中心的调查，超过 1,500 名从业者对自己的每一个 O*NET（美国职业信息网络）工作职责打分，1 到 5 分，标明愿不愿意让 AI Agent 接手。

团队把 Workbank 的自动化意愿分数和 OEWS 2024 年度工资总额结合起来量化经济暴露度，从中挑选了 35 个职业。

这些职业同时满足两个条件，从业者的自动化意愿平均分高于 3，且经济暴露度排名靠前。

然后在这些职业中，选取自动化意愿最高的工作职责，加上可行性过滤，要求每项保留的职责可数字化、可评估、有支撑材料，自动化意愿也高于 3，形成任务设计的来源池。

Figure 1 展示了 JobBench 的整体设计流程，从 Workbank 调查到任务构建再到基准评测的全链路。

拿记者举例，Workbank 调查显示，记者最想让 AI 代劳的职责是核查不同来源的参考资料以获取相关事实。

GDPVal 给记者设计的任务只是拿一个已组装好的素材包编辑一篇文章，返回一篇可发布的稿件。

JobBench 要求跨年度核对水质 CSV 数据、EPA 指导文件和监测报告，验证超标情况，识别高风险社区，最后组装一份多部分的编辑方案。

前者测的是编辑能力，后者测的是记者真正花时间、又最想甩掉的交叉验证能力。

资深记者日常面对的，是他们最想交给 AI 的那部分工作。PDF 里翻数据，CSV 里对口径，多条来源互相打架，谁和谁矛盾、缺了哪段数据，这些琐碎又高风险的核查工作，才是记者日常的真正时间黑洞。

再拿律师来说，律师最想交给 AI 的是法规研究和案件结果分析，研究法规条例，用法律先例分析可能的案件结果。

GDPVal 让律师做的是从自包含的事实模式草拟一份备忘录。

JobBench 则要求查询多表 STR 物业数据库，计算每处物业的罚款暴露和收入损失预测，应用 Penn Central 和 Hignell-Stark 判例对镇政府的报价进行分析，起草对比条例表和基于判例法的反提案。

前者是封闭世界的文本输出，后者才是律师日常最耗时也最想脱手的工作。

职场推理

GDPVal 测的是知识交付能力，给 Agent 一份干净的输入，看它能不能产出漂亮的专业文本。

JobBench 测的是专业推理能力，给 Agent 一堆杂乱、互相矛盾的工作材料，看它能不能像资深从业者一样，定位证据、检索来源、交叉比对、消除冲突，然后才写出经得起推敲的产出。

每个 JobBench 任务就是一个仿真办公场景，包含四个要素。

Query，一段职业场景描述，固定上下文和 Agent 必须交付的成果。

Reference files，一组异构来源文档，Agent 必须跨文件阅读和消歧后才能进行所需分析。

Binary Criteria，锚定在可验证数字、事实和有据可查的专业判断上的二元检查项。

Rubrics，推理链，链上节点是标准，链的顺序就是专家为支撑某个结论而走的推理步骤。一条 Rubric 只有当链上每个节点都通过时才获得加权分数，推理链上任何一步出错，整条链得零分。

JobBench 共 130 个任务，覆盖 35 个职业，横跨 10 个 SOC（标准职业分类）组别。

其中主集 65 个任务，简易集 65 个任务。涉及 502 个参考文件、17 种文件格式，每个任务平均 3.9 个参考文件。格式覆盖 CSV、TXT、PDF、XLSX、DB、DOCX、PNG、JSON 等。

主集中 51.7% 的参考文件来自真实世界的公开记录，包括联邦机构发布（CDC、EPA、EIA、Census、USDA、FRED、EEOC）、州和市政门户（城市条例、法院文件、公共健康和采购记录）、学术和科研仓库、开放数据平台（城市开放数据中心、Kaggle、GitHub 数据转储）。

简易集的全部参考文件均来自真实世界，与主集的区别在于，简易集不包含需要 Agent 在线搜索才能发现的隐藏文件，推理挑战也更少。

Figure 2 展示了任务在各职业类别中的分布：

商业与金融运营类占 30 个任务（23.1%），包含人力资源专员、许可审查员、管理分析师、线上商家、个人财务顾问等职业。

办公与行政支持类 24 个（18.5%），涵盖簿记员、法庭书记员、客户服务代表等。

计算机与数学类 19 个（14.6%），有生物统计师、计算机与信息研究科学家、用户支持专家等。

建筑与工程类 15 个（11.5%），包括土木工程师、机械工程技师、石油工程师等。

管理类 13 个（10.0%），有计算机与信息系统经理、医疗与健康服务经理、供应链经理等。

艺术设计与娱乐类 11 个（8.5%），有制作人与导演、技术撰稿人等。

销售类 7 个（5.4%），法律类 3 个（2.3%），生命与社会科学类 4 个（3.1%），教育教学与图书馆类 4 个（3.1%）。

链式评分

评分体系是 JobBench 区别于其他基准的关键设计。

4,631 条二元评分标准，每个任务平均 35.6 条，组成推理链式的 Rubric。

每条标准必须满足四个属性。自包含，一条 Rubric 可以独立判断，不需要继承外部上下文。二元，通过或不通过，没有部分得分。客观，锚定在可验证的事实物或可复现的计算上。无歧义，被检查的对象要精确到两个评分者不会合理地产生分歧。

团队在开发过程中发现，歧义是让不同 LLM 评委对同一答案产生分歧的关键因素，所以精确性要求直接写进了设计原则。

一条 Rubric 的所有节点必须全部通过才得分。推理链上一步出错，后面的步骤再漂亮也不算数。这和资深从业者评审新人的方式一致，结果对但推理过程错，一样打回重做。

拿那个记者任务来说，Agent 正确识别了超标数据，但引用了错误的来源文件来支撑结论，这条 Rubric 就算失败。

Table 2 列出了 JobBench 的核心统计数据：

任务的筛选经过三道质量关卡。

第一道是自动化审计，审计 Agent 检查任务指令与参考文件之间的一致性、任务本身的专业合理性、每条 Rubric 的正确性，不通过的丢弃。

第二道是标注员审核，标注员打磨任务指令、修剪低质量 Rubric，只有获得正面反馈的任务进入下一轮。

第三道是试解，存活的任务用不同 Agent 多次采样运行，按 Rubric 评分，只保留联合通过率覆盖自身 Rubric 集合超过 90% 的任务。

标注员来自两个渠道。Prolific 是一个研究参与者招募平台，平均每个职业有 26.5 名领域专家参与。

Upwork 是一个自由职业市场平台，团队按职业关键词搜索，保留任务成功率超过 90% 的候选人。

选定的专家完成结构化的入职流程后，在标注平台上工作，平台集成了 AI 工具辅助标注并记录使用日志供审查追踪。

最终 71% 的候选任务通过了三阶段质量检查。

纳入基准后，所有 Rubric 的联合通过率达到 95.4%，也就是说超过 95% 的标准至少被某个 Agent 在某次运行中通过，证明这些标准在实践中是可以达成的，不是空中楼阁。

前沿悬殊

36 个模型配置的评测结果，最好的 Claude Opus 4.7 搭配 Claude Code 拿到 45.9%，不到一半。

GPT-5.5 搭配 Codex CLI 拿到 42.7%，GPT-5.4 搭配 Codex CLI 拿到 38.9%。

Claude 和 GPT 家族之外，没有一个配置超过 19 分，Qwen 3.5 Plus 在 OpenCode 下拿到 18.5，MiniMax M2.5 拿到 14.8，Gemini 3 Pro 和 Flash 都停在 11.4，Kimi K2.5 只有 8.73，最弱的 Grok 4.2 Fast 只有 4.38 分。

今天的 Agent 在专家最想让 AI 处理的专业推理任务上，依然犯着大量错误。

和 GDPVal 对比，差距更明显。

GDPVal 的得分已经接近饱和，GPT-5.4 达到 83.0，GPT-5.3 Codex 达到 70.9。

同样的模型在 JobBench 主集上，Codex 得分分别只有 38.9 和 33.7。

工作量上，JobBench 主集同样远超 GDPVal。GPT-5.4 在 Codex 下运行 JobBench 主集的耗时是 GDPVal 的 2.40 倍，工具调用和轨迹事件都上升到 GDPVal 的约 1.3 倍。

脚手架的选择对得分的影响和基座模型一样大。例如 Claude Sonnet 4.6 在 Claude Code 下得分 36.9，换到 OpenClaw 只有 30.6。同样的模型，换个脚手架，差距可以到好几个百分点。

推理投入和得分正相关。

Figure 6 显示，GPT-5.4 在 Codex 下从低推理投入提升到超高推理投入，JobBench 主集得分从约 31.9 单调增长到 38.9，提升了 7.0 个百分点。推理越多想越久，分数越高，符合直觉，但即便拉满推理投入，离满分依然遥远。

成本方面，Figure 5(A) 画出了推理成本与得分的散点图。Opus 4.7 在 Claude Code 下跑完全部任务推理成本约 210 美元，是 GPT-5.5 在 Codex CLI 下 44 美元的约 5 倍。GPT-5.5 在中等价位上以 42.7 分领先，性价比突出。最低成本配置是 GPT-5.3 Codex 在 Codex CLI 下的 32 美元。Opus 4.7 是唯一超过 43 分的配置，但价格是 GPT-5.5 的近 5 倍。

还有一个值得玩味的发现。团队分析了 3,516 篇 Agent 相关的 arXiv 论文摘要（2025 年 4 月至 2026 年 3 月）和 2,283 家 YC 创业公司的描述（2006 至 W26 批次），用 GPT-5.4-mini 将它们映射到 JobBench 覆盖的 35 个高意愿职业上。

结果是，学术界和创业圈的关注度与模型能力呈负相关，论文的 Pearson 相关系数为 -0.15，YC 公司为 -0.34。

R&D 象限（高意愿、低能力）获得的注意力是 Sweet Zone（高意愿、高能力）的 1.56 倍（论文）和 1.62 倍（YC）。

Agent 还做不好的地方吸引了更多关注，已经具备能力的领域没有被充分推广和落地。

JobBench 基准要做的，就是把 AI 在职场的目标从替代转向增强，构建 Agent 去做人真正想交出去的工作，而不只是最有经济价值的工作。

最好的 Agent 应该是替你完成你手边那些脏活累活的 AI。

参考资料：

https://job-bench.github.io/

https://github.com/Job-Bench/job-bench-eval

https://arxiv.org/pdf/2605.26329v1

查看全文

http://www.gsyq.cn/news/1455979.html