当前位置: 首页 > news >正文

新基准ALE测试:主流AI模型完成复杂专业任务平均通过率仅2.6%

【导语:当前AI模型在主流benchmark上表现出色,但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last Exam(ALE),测试发现主流模型在ALE最难层级平均完整通过率仅2.6%,揭示了AI在完成复杂专业任务上的差距。】


新基准ALE:衡量AI真实工作能力

现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现,研究团队提出新基准Agents’ Last Exam(ALE)。它由250余位行业专家共同开发,收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务,用来测试AI在长期、有经济价值的真实工作流程中的表现。

ALE考试:主流模型表现不佳

在ALE最难层级中,主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex + GPT - 5.5,完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例,指出当前系统的主要瓶颈在于领域知识,而非执行能力。

研究还比较了模型和agent框架的影响,发现更换模型带来的结果差异明显大于更换agent框架,模型选择带来的影响范围大约是agent框架的三倍。

ALE不足与未来方向

ALE以SOC 2018为职业分类骨架,主要覆盖软件型、数字化专业工作,现阶段任务主要运行在Linux或Windows虚拟机中,且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分,公开子集和完整任务池在各领域通过率相关系数为0.89。

不过,研究团队认为ALE是持续更新的基准,未来任务池会扩展到新工作流和新行业,私有池任务也会定期轮换进入公开集。

编辑观点:新基准ALE为评估AI真实工作能力提供了新视角,主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板,未来ALE的持续更新有望推动AI在更多领域的应用和发展。

http://www.gsyq.cn/news/1504505.html

相关文章:

  • 别再搞混了!西门子S7-1200工艺组态里,限位、原点、急停的感应器到底该选常开还是常闭?
  • 天梭官方售后服务价格 - 天梭服务中心
  • 2026 武汉汉阳区靠谱装修公司推荐,武汉连锁装修公司汉阳门店地址及特点,汉阳本地装修公司老房翻新整装口碑排名 - 品牌智鉴榜
  • 宝兰德BES中间件分离式部署实战:构建安全隔离的企业级应用环境
  • 2026重庆名表回收战力排行榜|收的顶断层领跑,理查德米勒变现指南 - 奢侈品回收测评
  • Auto_Simulated_Universe:崩坏星穹铁道模拟宇宙全自动化解决方案深度解析
  • 网页端汉字笔顺动画演示与手写描红练习工具包
  • 靠谱红点奖代理申报机构推荐 | 商唐科技 - 博客万
  • 2026年北京餐饮酒店虫害防治完全选购指南|从卫生检查失利到100%达标的转变 - 优质企业观察收录
  • LTME-02A激光雷达Windows C++接入工程(VS2019完整项目+ldcp SDK集成)
  • 2026年足浴门店管理软件权威推荐_选型指南 - 小熊打盹
  • 别再死磕复杂模型了!用PyTorch实现MLS基线,让你的开放集识别(OSR)性能飙升
  • 2026天津管道疏通哪家靠谱-选慧通-正规商家-专业改独立下水-疏通马桶优选指南 - 热点速览
  • 端午节送礼怎么选?! - 热点速览
  • Keil MDK下Flash下载失败的5个常见原因与解决方法(以Cortex-M4为例)
  • Flex实战:如何为自定义的PL语言设计一个健壮的词法分析器(含错误处理)
  • 基于YOLOv11的工业轴承缺陷检测 产线实时质检系统
  • 从‘过拟合克星’到‘检测器增强’:深入聊聊Mixup在MMDetection中的‘非典型’用法与调参心得
  • 别再死磕IMU标定了!VIO实战中噪声参数到底怎么调?(以VINS、ORB-SLAM3为例)
  • 别再折腾Nginx了!用ZLMediaKit+FFmpeg搞定摄像头直播推流,5分钟搭建本地监控系统
  • 80C51硬件看门狗原理与低功耗设计实战:P8xC660X2应用详解
  • 3分钟掌握DLSS Swapper:一键智能切换游戏DLSS版本,彻底释放显卡性能潜力
  • 护发素推荐:高性价比护发素盘点 - 热点速览
  • 如何在手机上实现专业级AI歌声转换?so-vits-svc完整指南
  • 终极免费暗黑破坏神2存档编辑器:5分钟打造完美游戏角色
  • 河南信阳叛逆少年教育学校怎么选?2026 口碑榜TOP10!央视背书、20年老牌机构领衔,精准解决网瘾/厌学/早恋,家长避坑必看! - 辛云教育资讯
  • 终极指南:如何用DeepBump一键将普通图片变成立体纹理
  • 2026年北京杀虫公司排名:从卫生达标到虫害根治的完整选型指南 - 优质企业观察收录
  • Python+OpenCV+PyAutoGUI:构建高精度自动化图形界面操作脚本
  • 如何让Direct3D 8经典游戏在现代系统上重生:d3d8to9技术解析