当前位置: 首页 > news >正文

全球公司集体反省:从“Token管够”到“小模型经济学”,省钱风潮来袭!

全球公司转向“小模型经济学”

曾经Token管够的公司,如今集体开始节约。最近,美国Agent公司Lindy将100%的托管Agent流量从Claude迁移至DeepSeek V4,理由是能节省数百万美元推理成本,迁移流量成本下降约90%。不仅如此,一些美国开发者和中小公司转向中国模型,因其在大量日常任务上“够用且便宜”。据外媒报道,Siemens、Renault、Orange、ChapsVision等欧洲企业也开始混用美国、中国、欧洲的模型。

Token最大化的反噬

过去一年,很多企业鼓励员工多用AI,认为Token烧得越多越能证明公司“AI - first”。但随着Token账单摆在面前,全球公司开始集体反省,“该省省该花花”,小模型经济学风潮兴起。所谓小模型经济学,就是不什么活都请最贵的专家。过去企业接入AI默认用最强模型,然而前沿模型是Token碎钞机,成本高昂。于是大家思考是否每件事都要用最贵的旗舰模型,结果发现简单活分给便宜模型,复杂活上贵模型效果不错,这一省钱“小妙招”被称为“小模型经济学”。

这一经济学并非凭空产生,而是被账单逼出来的。Uber曾鼓励工程师多用AI编程工具,如Claude Code、Cursor,但仅几个月就烧穿全年AI编程预算。Uber COO Andrew Macdonald公开质疑Claude Code使用量与“多交付25%有用消费者功能”的关联,随后公司给员工设Token限额,每人、每个工具每月1500美元Token花费,超额需获批。亚马逊员工自发做KiroRank排行榜比谁用Token多,有人钻漏洞,高级副总裁Dave Treadwell只好喊话“别为了用AI而用AI”,排行榜下线。Meta内部的“Claudeonomics”也遭遇同样问题。目前,大公司都开始收紧Token用量,微软取消Claude Code直接许可,转向GitHub Copilot CLI,Copilot从固定订阅走向按量计费;Meta从“Token最大化”转向“Token最小化”策略,计划限制员工Token使用,因内部AI使用成本预计达数十亿美元级别。

小模型经济学变成一门生意

企业抠预算的同时,供给侧也发生变化,便宜模型开始好用。DeepSeek V4系列是典型代表,其价格比Anthropic模型低约20 - 50倍,在Ramp的企业软件采购趋势榜上曾冲到第一,在Vercel AI Gateway的生产流量中,Token份额一个月从不到1%升至17%,连微软都考虑用其微调版顶替Copilot Cowork里的Anthropic、OpenAI。

行业形成分层逻辑:不差钱或任务难时用OpenAI、Anthropic的旗舰模型;算性价比则用DeepSeek、Kimi、智谱GLM、MiniMax等“够用且便宜”的模型。开源项目ClawRouter数据显示,这种分层组合可将平均成本从每百万Token 25美元压到约2美元。

在这种逻辑下,OpenRouter等模型路由公司变得有价值。OpenRouter不训练模型,而是做模型调度台,考虑价格、延迟、稳定性、上下文长度等因素,帮助企业和开发者在数百个模型之间调度。据外媒报道,OpenRouter今年完成1.13亿美元B轮融资,估值约13亿美元,周处理Token量涨了5倍到25万亿,拥有800万用户。Vercel数据显示,大规模AI应用不是一个模型打天下,月请求量超1000万次的团队平均会同时使用35个模型,AI使用像分工明确的流水线。还有LiteLLM、Helicone等工具把模型路由做成财务系统,可按团队、项目、模型设置预算,监控Token消耗,切换流量。云厂商也跟进,AWS Bedrock的Intelligent Prompt Routing能在同一模型家族里自动分配请求,内部测试显示可节省48%到56%成本。

企业如何落地“小模型经济学”

企业落地“小模型经济学”面临具体技术问题,如请求该派给便宜模型还是贵模型,需把AI任务拆成小步骤。以客服Agent为例,用户问“我的订单到哪了”,先让便宜模型判断意图,再抽出订单号调用物流API,最后用中等模型润色结果,企业可减少昂贵推理。AI编程也类似,读取目录等简单任务可交给便宜模型,大型重构等复杂任务交给强模型。

企业实现模型路由通常有几种做法。最简单的是规则路由,如订单查询走小模型加API,法律问题走强模型加人审;更常见的是级联路由,先让便宜模型回答,校验不通过再升级给贵模型;还有学习型路由,系统根据提示词难度等自动判断用哪个模型。近两年,相关工程化手艺成为研究课题,如ParetoBandit研究动态环境里的预算路由,Budget - Aware Agentic Routing研究Agent场景。当企业转向务实的“小模型经济学”,这是继续扩大AI使用的前提。

http://www.gsyq.cn/news/1622893.html

相关文章:

  • 2026论文写作新利器!5款AI论文软件实测,从框架到内容一步到位
  • AI教材写作必备:低查重AI工具,为教材编写保驾护航!
  • SpaceX收购后Cursor推iOS版应用,可语音启动Agent但遭用户吐槽Bug多
  • Claude归零层解析:语义保真度校验环的工程消除与能力密度跃升
  • YOLOv8工业视觉实战:从模型优化到RK3588边缘部署全解析
  • 经典蓝牙技术综述
  • 无限维系统模型降阶:从插值投影到H2最优逼近的工程实践
  • 2026年构建 AI 交易机器人的最佳加密APIs
  • 工程办公管理软件如何破解成本失控与回款扯皮?三个落地切口
  • Agent Runtime:AI 应用的“操作系统时刻”已到来
  • 经济模型预测控制在周期性最优运行中的稳定性与性能分析
  • 良率工程实战:从72%到89%的完整爬坡路径
  • 从Samba漏洞到Jenkins沦陷:CVE-2017-7494攻击链深度剖析与防御实践
  • 3步掌握安卓应用管理神器:APKMirror安卓客户端终极指南
  • 微信小程序抓包实战:从原理到工具配置与安全分析
  • 企业AI提效五大实操场景:本地化、零API、合规落地
  • 暑期旅游邮件营销深度拆解:你的促销邮件为什么没人看?
  • 112、hypothesis 属性测试:让机器自动生成测试用例,发现你从未想过的边界
  • 大语言模型如何理解表格数据:表示学习与检索增强生成实践
  • BiliDownloader终极指南:简单快速免费下载B站视频的完整教程
  • 帐号注册与帐号登陆互联
  • 终极指南:3分钟掌握中国科学技术大学学位论文LaTeX模板
  • 掌握AI教材编写技巧,低查重AI工具让教材生成不再难!
  • PCF8591与PIC24HJ256GP610的混合信号处理系统设计
  • 2026空号检测平台选型决策指南:企业认证合规要求与实时查询能力综合排名
  • Anthropic归零层:语义保真度校验环的工程移除与性能跃迁
  • 解决Linux下Realtek 8812AU/8821AU无线网卡驱动兼容性挑战
  • AI教材生成必备:低查重工具,让你的教材写作又快又好!
  • 2026蓝牙耳机推荐:从连接、降噪到续航的技术选型思路
  • 3分钟掌握WorkshopDL:解锁Steam创意工坊资源的终极解决方案