当前位置: 首页 > news >正文

SaaS-Bench评测:AI Agent完成长流程工作能力欠佳,现有软件或需为其重做

现有AI Agent完成长流程工作远没那么简单想象一个真实的工作日项目经理更新项目状态、财务人员整理客户账单、医疗管理员核对预约和保险信息这些普通日常工作对AI Agent来说却不简单。它要理解业务目标、跨应用查找信息、保持状态一致还得在几十甚至上百步操作后把所有细节正确落到系统里。真实办公场景下的SaaS-Bench评测过去一年GUI Agent宣称能替人类干活Benchmark成绩飙升但UniPat AI用数据证明这一切并不靠谱。SaaS-Bench直接把真系统搬进Docker让Agent在真实环境中干活。它精心挑选23个开源SaaS系统覆盖软件研发、业务财务、医疗管理等六个专业领域且系统中填充了真实业务数据。106个任务中93.4%跨越至少两个应用三应用任务占一半纯文本任务74个涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算97.3%的文本任务操作步数超过100步最长轨迹达300 步。评测结果全军覆没问题重重主要结果显示最强的Claude Opus 4.7检查点分数43.9%端到端完全通过分数只有3.8%106个任务只完整通过4个Kimi K2.5和Gemini 3.1 Pro完全通过分数为零。把每个模型在同一任务上独立跑3次pass3相比pass1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%但执行极不稳定。从三个结构维度看分数与应用数、步长、检查点个数均呈单调递减关系。跨应用数1→4平均分从53%降至20%操作步长增加得分显著降低检查点个数≤6 vs ≥18平均分从65%降至27%。四种结构性失败暴露AI Agent深层局限失败1任务越长越做不对。即使每个检查点通过率高达95%12个检查点的全部通过概率也只有54%且所有模型通过率随任务推进呈下降趋势。失败2一步错步步错。如创建公司客户时触发个人客户逻辑导致后续发票、付款记录等全部挂在错误实体下一个3%的错误节点造成30%的分数损失。失败3做完不检查自以为对了。Claude Opus 4.6识别出日期错误并修改但未复查提交时汇报错误Agent意图与验证器状态存在断层。失败4同一张考卷成绩忽高忽低。Claude Sonnet 4.6在同一任务的三次独立运行中分数范围从0.00到0.68这是路径依赖导致的。未来展望软件或需为AI Agent重新设计SaaS-Bench揭示了AI Agent的短板也表明当前软件形态可能需要为Agent重新设计。今天的SaaS是为人类设计的当Agent成为主要用户现有界面会成为累赘。未来不是让Agent学会操作人类软件而是软件本身要为Agent重新设计。
http://www.gsyq.cn/news/1391698.html

相关文章:

  • 冒险岛数据宝库:WzComparerR2 让游戏数据触手可及
  • 电商支付SSL故障排查:证书链、CDN与Java TrustStore三重陷阱
  • 是不是已经受够了写接口?一个开发者的系统集成血泪史
  • 基于物理原理的无线人数统计:从S参数到系统秩的极限
  • 可逆水印技术:无位置图方案实现高容量无损信息隐藏
  • Winhance中文版:重新定义Windows系统掌控权,让优化变得简单高效
  • 超越AT指令:用Python脚本自动化配置全志T113-S3的EC200A 4G模块
  • 制造业生产流程自动化,Agent需要具备哪些能力?深度拆解2026工业级智能体落地范式与核心架构
  • 扣子工作流踩坑实录:10个新手必知的常见问题及解决方案
  • Unity3D AVPro Video:从StreamingAssets到多平台部署的实战指南
  • ASMR下载器终极指南:3分钟快速掌握asmr.one资源批量获取技巧
  • 定价策略实战 按席位 按任务 按结果 三种计费的边界条件
  • XySubFilter:基于libass引擎的高级字幕渲染解决方案
  • Skill是Agent的“技能包“,需要先注册到Agent;沙箱是Skill运行的“安全盒子“;Python包是Skill运行的“燃料“,需要安装在沙箱里
  • 2026年必备收藏:DeepSeek+豆包+Kimi降AI率指令合集,免费降AI教程与省心方案 - 降AI实验室
  • Outfit字体:免费开源的终极几何无衬线字体解决方案
  • Thief摸鱼神器完整指南:跨平台办公助手的高效使用技巧
  • ARMv8架构下CPACRMASK_EL1与CPTR_EL2寄存器解析与应用
  • cann-recipes-embodied-intelligence:具身智能训练推理一站式方案
  • 为Claude Code配置Taotoken密钥与聚合地址解决访问不稳定问题
  • ESP8266 WiFi中继器终极指南:5步构建稳定网络扩展方案
  • C++ 的进化:从“填坑”到“重构” —— 深度解析 C++23/26 核心特性
  • 电力负荷数据隐私保护合成:STL分解与高斯过程回归实践
  • 瓦斯事故深度复盘:无感定位助力矿山筑牢安全防线
  • 2026国内热门低代码开发平台盘点——优缺点对比
  • SpringBoot+Vue网上书店系统源码+论文
  • 告别C盘爆满!傲梅分区助手一键迁移应用,轻松腾出几十G空间
  • 【Lovable游戏社区搭建实战指南】:20年架构师亲授从0到1构建高黏性玩家社区的7大核心模块
  • 3步解锁Windows桌面生产力:FancyZones智能窗口管理全攻略
  • 为什么92%的团队搭不出真正Lovable的开发体验?这4个隐性设计缺陷你中招了吗?