当前位置: 首页 > news >正文

1000 tokens/s 到底有多快?我用 8 次 API 请求,测了 4 款国产大模型

最近,我在小米 MiMo 的内测申请页面看到一个很夸张的数字:MiMo-V2.5-Pro-UltraSpeed 峰值速度 1000 tokens/s

页面同时给出了几个参照:行业模型平均约为 50~100 tokens/s,行业高速模型约为 400 tokens/s。单看数字,1000 tokens/s 是 100 tokens/s 的 10 倍,似乎意味着以前要等 10 秒的回答,现在 1 秒就能生成完。

但模型速度真能这样换算吗?我没有等到内测资格,而是先在同一个 API 平台、同一台电脑和同一网络下,对 4 个模型做了一轮小规模流式测试。结果比“谁快谁慢”更有意思:决定使用体验的,不只是 TPS;同一个模型在云端的速度波动,有时比不同模型之间的差距还大。

一、50~100 tokens/s,究竟是快还是慢?

Token 是大模型处理和生成文字的基本单位。它不严格等于一个汉字,也不严格等于一个英文单词;不同模型的分词器还可能把同一句话切成不同数量的 Token。

TPS(tokens per second)通常表示模型进入连续生成阶段后,每秒能输出多少个 Token。假设回答长度为 1000 个 Token,只计算生成阶段,理论耗时如下:

生成速度

生成 1000 Token 的理论时间

50 tokens/s

20 秒

100 tokens/s

10 秒

400 tokens/s

2.5 秒

1000 tokens/s

1 秒

因此,50~100 tokens/s 并不算“不能用”。普通问答只有几百 Token 时,它已经能形成较流畅的打字效果;但如果要生成长代码、长报告,或者 Coding Agent 要连续调用模型几十次,差距会迅速累积。

二、模型“开始得快”和“写得快”是两回事

一次流式请求大致会经过下面几个阶段:

发送请求 → 网络传输/服务排队 → 处理输入上下文 → 输出首字 → 持续生成 → 完成

所以我记录了三个核心指标:

  • TTFT(首字延迟):从发送请求到看到第一个字要等多久,最影响“它有没有立即理我”的感觉。

  • TPS(持续生成速度):开始输出以后,每秒生成多少 Token,

http://www.gsyq.cn/news/1587106.html

相关文章:

  • ICLR 2026 Oral 用 RL 训 Embedder 而非 LLM:Q-RAG 把多步检索成本砍到几乎免费
  • billd-desk终极指南:如何构建企业级远程桌面控制与游戏串流平台
  • AI 编程时代,UI 设计系统也需要工程化:从 Google DESIGN.md 说起
  • VisualCppRedist AIO:Windows运行库的“瑞士军刀“如何解决你的软件兼容性难题
  • Java应用启动慢、接口超时、频繁Full GC?别再把锅甩给JVM了!
  • Android Studio中文汉化终极指南:5分钟打造母语级开发环境
  • ROS嵌入式部署实战:在Jetson/RPi上稳定运行机器人系统
  • 服装贴口袋工序自动化科普:慧拿线上激光模板机全面解析
  • AI案例:选AI还是选人
  • 白领 16 亿 tokens
  • Fastjson反序列化漏洞:从原理到实战防护的Java安全必修课
  • 从高维数据中提取本质特征:秩提取与鲁棒子空间设计实践
  • 银河麒麟V10 SP3 源码编译部署 PostgreSQL 18.4
  • 跨平台资源下载神器:5分钟掌握res-downloader完整使用指南
  • 计算机小程序毕设实战-基于 SpringBoot+UniApp 的区域文旅(冀鲁豫)旅行推荐系统设计与实现 基于 SpringBoot+UniA【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 智人曾经这样灭绝猛犸象:AI入侵与行业灭绝
  • Loop Engineering :从提示词工程到循环工程,AI 编程的范式革命
  • 终极免费解锁:如何用Ohook完整激活Microsoft 365所有功能
  • 电梯里同事问我:“你觉得RAG落地最难的地方在哪?”,我愣了,保安转头:“我以前干过,主要就文档预处理、召回质量、生成忠诚度”
  • 终极SPT-AKI存档编辑器:免费开源的游戏进度管理神器
  • 深度剖析SQL注入攻防:从MySQL语法特性到多层防护体系
  • 淘宝闪购 AI 应用研发二面,我笑了!!!
  • 大模型AI智能客服系 AI智能客服系统 - 全功能详细介绍
  • 幼小衔接友好英语启蒙app深度实测,和小学教材主题同步对接
  • 遗传算法求解背包问题:零基础实战指南
  • 我翻脸了:“怎么现在面开发岗也要了解Transformer?”,面试官:“那你知道上下文窗口为什么有上限?为什么长对话质量越来越差吗?”
  • RLHF实战指南:用人类偏好对齐大模型意图
  • 前端构建性能优化
  • Perplexity版权风波:RAG架构下的AI数据合规实战指南
  • OpenCR深度解析:ROS机器人实时控制中枢入门指南