现有AI Agent完成长流程工作远没那么简单想象一个真实的工作日项目经理更新项目状态、财务人员整理客户账单、医疗管理员核对预约和保险信息这些普通日常工作对AI Agent来说却不简单。它要理解业务目标、跨应用查找信息、保持状态一致还得在几十甚至上百步操作后把所有细节正确落到系统里。真实办公场景下的SaaS-Bench评测过去一年GUI Agent宣称能替人类干活Benchmark成绩飙升但UniPat AI用数据证明这一切并不靠谱。SaaS-Bench直接把真系统搬进Docker让Agent在真实环境中干活。它精心挑选23个开源SaaS系统覆盖软件研发、业务财务、医疗管理等六个专业领域且系统中填充了真实业务数据。106个任务中93.4%跨越至少两个应用三应用任务占一半纯文本任务74个涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算97.3%的文本任务操作步数超过100步最长轨迹达300 步。评测结果全军覆没问题重重主要结果显示最强的Claude Opus 4.7检查点分数43.9%端到端完全通过分数只有3.8%106个任务只完整通过4个Kimi K2.5和Gemini 3.1 Pro完全通过分数为零。把每个模型在同一任务上独立跑3次pass3相比pass1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%但执行极不稳定。从三个结构维度看分数与应用数、步长、检查点个数均呈单调递减关系。跨应用数1→4平均分从53%降至20%操作步长增加得分显著降低检查点个数≤6 vs ≥18平均分从65%降至27%。四种结构性失败暴露AI Agent深层局限失败1任务越长越做不对。即使每个检查点通过率高达95%12个检查点的全部通过概率也只有54%且所有模型通过率随任务推进呈下降趋势。失败2一步错步步错。如创建公司客户时触发个人客户逻辑导致后续发票、付款记录等全部挂在错误实体下一个3%的错误节点造成30%的分数损失。失败3做完不检查自以为对了。Claude Opus 4.6识别出日期错误并修改但未复查提交时汇报错误Agent意图与验证器状态存在断层。失败4同一张考卷成绩忽高忽低。Claude Sonnet 4.6在同一任务的三次独立运行中分数范围从0.00到0.68这是路径依赖导致的。未来展望软件或需为AI Agent重新设计SaaS-Bench揭示了AI Agent的短板也表明当前软件形态可能需要为Agent重新设计。今天的SaaS是为人类设计的当Agent成为主要用户现有界面会成为累赘。未来不是让Agent学会操作人类软件而是软件本身要为Agent重新设计。