当前位置: 首页 > news >正文

小米把 1T 模型干到 1000 TPS?这事 Groq 看了得沉默

讲真,看到小米和 TileRT 联合发的 MiMo-V2.5-Pro-UltraSpeed 挂在 HN 上 580 分、
423 条评论冲上来的时候,我第一反应是 —— 又一个营销稿?

我本来认为"1T 模型 + 1000 TPS"这事,硬件不堆点定制硅根本做不到。
你看 Groq 用 LPU、Cerebras 搞晶圆级,都是奔着把内存带宽做爆才把延迟压下来。
1T 这个规模,按理说 KV cache 本身就够呛,怎么可能在通用 8 卡服务器上跑出千 TPS?

结果我抽了个时间把 mimo.xiaomi.com 那篇 blog 通读了一遍,
看到三个数字的时候,沉默了。

第一个:1000+ TPS,峰值能摸到 1200,对比 Groq LPU 顶配 750 TPS、Cerebras 也只敢报 1T 以下模型。
而且是"标准的 8-GPU 商用节点",不是 wafer-scale 也不是片上 SRAM。

第二个:Coding 场景的 acceptance length 6.30,max 7.14。
这是 DFlash 投机解码一次出 8 个 draft token 之后被验证接受的比例,
6-7 个被保留 —— 比传统投机解码那种"一个一个出再一个一个验"高了一个量级。

第三个:3 倍价格,10 倍速度。MiMo-V2.5-Pro 本身已经 $0.43 输入 / $0.87 输出每百万 token,
UltraSpeed 加到 3 倍价 —— 不是免费午餐,但这是 1T 模型的推理,
你让用户为"快 10 倍"额外掏 3 倍钱,我觉得合理。

我之前一直以为 1T 模型的快慢纯粹是显存带宽的物理极限,
现在看下来,瓶颈其实在"算子边界"。blog 里原话:
1000 TPS 下每个算子生命周期被压到微秒级,传统的 launch/sync/memory 往返形成了
"Execution Gaps" —— 这些 gap 加起来才是真正卡速度的地方。

我个人认为小米和 TileRT 真正牛的地方不在 FP4、也不在 DFlash 单点,
在"模型和系统一起设计"。FP4 只压 MoE Expert(其他模块保精度)、
DFlash block size 卡 8(再大就验证开销爆炸)、TileRT 把算子 gap 在根上消掉 ——
三个动作是配合的,缺一个都到不了 1000。

这事更深的味道是:"软件定义速度"终于压过了"硬件定义速度"。
Groq 和 Cerebras 过去几年攒的家底是"我硬件强所以我快",
现在小米告诉你,模型侧 + 系统侧 6 个月的 co-design,能在 8 卡通用机上干出 15x ChatGPT/Claude。
我觉得这条路径会逼着 Groq 们重新回答一个问题 ——
你的硬件优势到底是一个工程壁垒,还是一个时间窗口?

我也想提一句"这玩意到底能用在哪"。blog 里给的场景是:
高频量化交易信号、反欺诈毫秒级拦截、外科辅助医学影像。
这个我还不太了解 1T 模型在医疗这种高 stakes 场景里延迟真的能当卖点 ——
推理快 10 倍救不回来的东西,救回来的速度也救不回来。
但高频交易和反欺诈是真的,毫秒就是钱。

说回现实:6 月 9 日到 6 月 23 日、23:59 北京时间,API 申请制开放 14 天,
每天 10 个队列位、单次 30 分钟、5 分钟 idle 自动释放。
这种"挤着用"的玩法明显是 compute 还没完全铺开,
价格 3 倍 + 限流 —— 这就是"我们证明它能跑,量产等下个季度"的姿态。

我个人看法,这事不是吹牛,
但也别把它当"中国 AI 已经吊打美国"的证据 ——
MiMo 走的是 V2.5 Pro 已经是 Opus 级别的底子,UltraSpeed 是在底子上把速度拉到极致。
Grok 那些闭源前沿模型在 reasoning / agent 这类长链任务上是不是也能做到 1000 TPS,
这个我现在还没看到数据。

你们呢?

如果给你 1000 TPS 的 1T 模型,你第一反应是拿它来跑什么?
高频交易和 coding agent 我都觉得有戏 —— 但医疗那块我持保留态度。
你们怎么看?

http://www.gsyq.cn/news/1494701.html

相关文章:

  • 嵌入式硬件设计:Kinetis K53引脚复用与LQFP/MAPBGA封装对比实战
  • Vue+Spring Boot双端可运行的学生信息管理项目(含前后端独立模块与启动说明)
  • 终极指南:如何轻松解密和提取RPG Maker游戏资源文件
  • GitCode个人技术开发者总结完整使用指南
  • 告别CNN与RNN:用SpectralFormer(Transformer)为高光谱图像分类打开新思路
  • NXP IW623P Wi-Fi 6/蓝牙5.x组合芯片硬件设计与调试实战指南
  • WechatBakTool:基于C的微信聊天记录备份与数据库解密技术方案
  • 我测了 6 个大模型写中文文章:GPT-4 vs Claude vs DeepSeek vs 通义千问 vs Kimi vs 豆包,谁最像人写的
  • 高校掌纹识别课程实践包:PCA降维+CNN分类+多模型融合全流程Python代码
  • 【嵌入式必知】内联函数(inline)和宏定义(#defne)
  • 专业数据可视化工具实战指南:3步创建交互式图表
  • 终极无损视频修复指南:5分钟学会使用untrunc拯救损坏的MP4文件
  • 嵌入式低功耗设计实战:从Kinetis K26电气特性到功耗优化策略
  • 告别Verilog代码乱糟糟:在Windows上用VSCODE一键美化格式的完整流程
  • 更便捷地提取梅露露的炼金工房资源
  • 别再只盯着CPU了!用Node Exporter监控Linux服务器,这5个内存和磁盘IO的指标更关键
  • CICERO双引擎架构:语言模型与规划器协同的AI谈判系统
  • ARM Cortex-M4引脚复用实战:从K60配置到嵌入式系统设计
  • 小程序毕设选题推荐:基于springboot+微信小程序的演唱会售票演唱会购票系统小程序【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 麻将AI助手Akagi:实时分析雀魂对局的终极指南
  • 完整步骤:Ubuntu 内网 192.168.0.111 → Cloudflare 二级域名(CLI 方式)
  • i.MX 6处理器电气特性实战:从手册参数到稳定硬件设计
  • 小程序毕设选题推荐:【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 计算机小程序毕设实战-微信小程序校园反诈骗基于Springboot的防诈骗管理系统小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • DayZ社区离线模式完整教程:打造专属末日沙盒的终极指南
  • 终极华硕笔记本性能调校指南:5分钟掌握G-Helper完整使用教程 [特殊字符]
  • BiliBili-UWP:Windows平台原生化B站体验终极指南
  • Simulink跑完仿真别关!5分钟教你用MATLAB脚本批量处理多组波形并自动保存高清图
  • 如何永久保存微信聊天记录:WeChatMsg完整备份方案
  • abap2xlsx架构解析:ABAP Excel生成库深度指南与最佳实践