当前位置: 首页 > news >正文

AI Agent 围城:在受限市场躺赢,在开放市场亏光——Project Deal 与 KellyBench 的双面启示

引言2026年4月AI Agent领域出了两份截然相反的「成绩单」。第一份来自Anthropic总部。他们把一个办公室变成了内部二手市场69个AI Agent在500件商品中自由交易成功撮合了186笔交易总金额$4,000。从滑雪板到乒乓球Agent们谈价格、比选择、完成交割——一切运转得像一个真正的市场。第二份来自General Reasoning的KellyBench。他们让前沿模型管理虚拟资金在38周的英超赛季博彩数据中进行投注。结果24个模型-种子组合中21个亏到见底。即便是表现最好的Claude Opus 4.6复杂决策评分也只有32.6%。这一喜一悲之间藏着AI Agent经济最核心的真相。一、Project Deal受限市场中的「小繁荣」Anthropic的Project Deal实验设计得非常巧妙。他们把旧金山总部的办公室变成了一个为期一周的内部经济参与者69个由员工支持的AI Agent商品池500件真实物品——员工们真的把自己的东西拿出来卖交易量186笔交易总金额$4,000规则买方Agent和卖方Agent自主协商、比价、成交从表面看这是一个巨大的成功。Agent们证明了自己可以在一个有界市场中高效运作浏览列表、比较价格、达成交易。但深入研究数据一个更微妙的发现浮出水面能力是复合的。Opus 4.5驱动的Agent在价格谈判和商品选择上系统性碾压Haiku 4.5的Agent。更强的模型拿走了更好的交易。而弱模型的主人——那些人类员工——完全不知道自己的Agent吃了亏。这意味着什么AI Agent经济的「公平性」可能是一个幻觉。在没有人为干预的情况下更好的模型天然拥有更强的议价能力而代理差距会自我强化——好的越好差的越差。二、KellyBench开放市场的「大屠杀」如果Project Deal是Agent在游泳池里游泳那KellyBench就是把它们扔进了汪洋大海。KellyBench的测试场景是给每个模型$500虚拟资金要求它们根据历史英超赛季的博彩赔率数据在38周内进行投注决策。这不是简单的「猜胜负」——模型需要理解赔率、计算期望值、管理资金风险、避免破产。结果惨不忍睹-24个模型-种子组合中只有3个没有破产-所有前沿模型的平均收益为负-最强模型Opus 4.6的复杂决策评分仅32.6%满分100为什么受限市场中的成功无法迁移到开放市场关键区别在于三个维度维度Project DealKellyBench信息结构清晰、稳定噪声大、不稳定反馈周期即时延迟、不确定市场动态简单双边撮合非平稳概率分布当信息是清晰稳定的当反馈是即时的当市场动态是简单的——Agent表现出色。一旦任何一个条件被打破能力曲线就开始崩塌。三、一个悖论为什么受限市场才是AI的主战场这两个实验放在一起揭示出一个反直觉的结论AI Agent最适合的市场不是「开放的自由市场」而是「受限的结构化市场」。这个结论与过去几年AI创业圈的主流叙事完全相反。主流叙事是AI Agent将颠覆一切市场——从跨境电商到金融交易到房产中介。但实验数据告诉我们在结构化、可预测、反馈明确的环境中Agent确实可以超越人类效率但在噪声大、动态变化、反馈延迟的环境中Agent的表现退化为随机游走。这不是模型能力的问题。这是一个关于世界的可建模性的问题。市场不是一个简单的优化问题。它包含战略性信息不对称、博弈论均衡、非理性行为、黑天鹅事件——所有这些东西当前的AI Agent训练范式都还没有触及。四、现实中的「甜点区」Agent正在哪些领域默默赚钱好消息是世界上的大部分经济活动其实都是「受限的结构化市场」。Ramp的采购Agent已经在实际部署中实现了3倍加速和16%的供应商成本降低。采购流程天然是结构化的固定的供应商池、标准化的比价逻辑、明确的下单流程。Avoca的HVAC服务Agent以10亿美元估值融了$1.25亿专门处理空调暖通领域的服务调度和报价。这也是一个高度结构化的市场标准化的服务目录、价格带、地理区域。Reserv的保险理赔Agent处理结构化理赔流程估值快速攀升。这些公司的共同点它们选对了市场类型。从来不去碰开放博彩市场、开放金融交易、开放电商竞价——那些地方留给人类和高频交易算法去厮杀。它们在结构化的、流程化的、可预测的商业流程中找到了Agent的「黄金地带」。五、对从业者的启示Agent产品的「市场选择」铁律从Project Deal和KellyBench的对照实验中可以提炼出几条Agent产品的设计铁律1. 选结构化市场放弃开放市场如果市场特征包括可枚举的选项、标准化的决策维度、可预测的反馈周期——那是Agent的甜点区。如果市场特征是高噪声、非平稳分布、战略性博弈——现阶段远离。2. 不要假装Agent能「理解」市场KellyBench的数据残酷地表明Agent在赔率面前的决策质量基本等同于随机。不是因为模型不够聪明而是因为「理解市场」需要的认知能力远超出当前LLM的能力边界。3. 设计护栏而不是追求完全自主Project Deal中Agent被限定在内部二手市场——有边界、有规则、有即时反馈。这种「护栏式部署」才是现阶段正确的产品形态。4. 关注「Agent能力鸿沟」的公平性问题更强的模型在市场中系统性碾压弱模型——这个问题目前被忽略了。当Agent经济规模化后监管者和平台都需要面对这个公平性问题。结语Project Deal 证明了可能性。KellyBench 划定了边界。在这两者之间就是AI Agent经济未来2-3年真正的战场。不是要取代开放市场中的交易员而是要接管企业中那些高度结构化、重复性、规则明确的操作流程。这个市场已经足够大了——大到足以孕育出一批估值百亿美元的Agent公司。至于「Agent自主在市场里赚钱」的梦想等模型先学会不破产再说。本文基于Anthropic Project Deal报告、KellyBench论文、Ramp、Avoca等公司的公开信息整理分析。
http://www.gsyq.cn/news/1297906.html

相关文章:

  • Seraphine终极指南:英雄联盟智能辅助工具如何提升你的游戏体验
  • Cursor 估值 $500 亿、SpaceX $600 亿收购选项:AI 编程工具从零到企业标配的爆发之路
  • 告别龟速下载!手把手教你从官网搞定VisualSVN-Server 6.0.1 for Windows
  • Vue3 + Element Plus 表单校验报错?手把手教你排查 ‘model is required‘ 的三大坑
  • 048、PCIE端点设备(Endpoint):从一次诡异的数据丢失说起
  • 数字电路时序裕量保障:从RTL到物理实现的系统化工程实践
  • FreeSimpleGUI:让Python GUI开发变得像写诗一样简单
  • 汽车信息娱乐系统与ADAS融合技术解析
  • AI 不会只“犯错”:多智能体更可能“集体犯错”
  • 用Quartus II和74160芯片,手把手教你做一个带秒表和校时的数字钟(附完整工程文件)
  • 别再只写Matlab仿真了!手把手教你用Verilog在FPGA上实现一个增量式PID控制器(附完整代码)
  • 终极指南:如何通过WebSocket远程控制OBS Studio实现自动化直播
  • 孩子考Scratch三级前,家长必看的5个核心考点与避坑指南(2023年5月真题解析)
  • 用ZCU106开发板实测Xilinx VCU硬核:手把手搭建4K@60 H.265超低延时视频流(附完整GStreamer命令)
  • X承诺保护英国用户免受非法内容侵害,未达承诺或面临Ofcom罚款
  • Mac玩转老游戏:手把手教你用Wineskin配置RPG Maker游戏所需RTP环境
  • USB高速传输PING协议原理与DWC2驱动开发实战
  • WELearn网课助手终极指南:5分钟掌握智能学习黑科技
  • 082、运动控制中的坐标系变换:齐次变换矩阵
  • 基于多智能体Q-Learning强化学习的多无人机协同路径规划与防撞matlab仿真
  • ChromePass:3分钟找回Chrome浏览器所有已保存密码
  • 别再傻傻分不清了!嵌入式开发中UART、RS232、RS485到底该怎么选?
  • Python信号重采样实战:从scipy.signal.resample到resample_poly的深度解析
  • 从零搭建ROS2与Web实时数据交互系统
  • 在ROS/Gazebo中验证你的UR5e动力学模型:从理论推导到仿真调试全流程
  • 虚幻引擎(UE5)-大世界分区WorldPartition教程(五):Data Layers运行时动态管理与玩法实现
  • 第7章:加入其他 Master 节点(master02、master03)
  • 突发环境事件应急演练:如何用高斯烟团模型快速评估泄漏影响范围?
  • SIMetrix中利用SPICE网表快速构建自定义MOSFET模型实战
  • 软电路入门:用导电缝纫线与LED制作可穿戴发光作品