当前位置：首页 > news >正文

1000 tokens/s 到底有多快？我用 8 次 API 请求，测了 4 款国产大模型

news 2026/6/26 23:18:48

最近，我在小米 MiMo 的内测申请页面看到一个很夸张的数字：MiMo-V2.5-Pro-UltraSpeed 峰值速度 1000 tokens/s。

页面同时给出了几个参照：行业模型平均约为 50～100 tokens/s，行业高速模型约为 400 tokens/s。单看数字，1000 tokens/s 是 100 tokens/s 的 10 倍，似乎意味着以前要等 10 秒的回答，现在 1 秒就能生成完。

但模型速度真能这样换算吗？我没有等到内测资格，而是先在同一个 API 平台、同一台电脑和同一网络下，对 4 个模型做了一轮小规模流式测试。结果比“谁快谁慢”更有意思：决定使用体验的，不只是 TPS；同一个模型在云端的速度波动，有时比不同模型之间的差距还大。

一、50～100 tokens/s，究竟是快还是慢？

Token 是大模型处理和生成文字的基本单位。它不严格等于一个汉字，也不严格等于一个英文单词；不同模型的分词器还可能把同一句话切成不同数量的 Token。

TPS（tokens per second）通常表示模型进入连续生成阶段后，每秒能输出多少个 Token。假设回答长度为 1000 个 Token，只计算生成阶段，理论耗时如下：

生成速度	生成 1000 Token 的理论时间
50 tokens/s	20 秒
100 tokens/s	10 秒
400 tokens/s	2.5 秒
1000 tokens/s	1 秒

因此，50～100 tokens/s 并不算“不能用”。普通问答只有几百 Token 时，它已经能形成较流畅的打字效果；但如果要生成长代码、长报告，或者 Coding Agent 要连续调用模型几十次，差距会迅速累积。

二、模型“开始得快”和“写得快”是两回事

一次流式请求大致会经过下面几个阶段：

发送请求 → 网络传输/服务排队 → 处理输入上下文 → 输出首字 → 持续生成 → 完成

所以我记录了三个核心指标：

TTFT（首字延迟）：从发送请求到看到第一个字要等多久，最影响“它有没有立即理我”的感觉。
TPS（持续生成速度）：开始输出以后，每秒生成多少 Token，

查看全文

http://www.gsyq.cn/news/1587106.html

ICLR 2026 Oral 用 RL 训 Embedder 而非 LLM：Q-RAG 把多步检索成本砍到几乎免费

billd-desk终极指南：如何构建企业级远程桌面控制与游戏串流平台

AI 编程时代，UI 设计系统也需要工程化：从 Google DESIGN.md 说起

VisualCppRedist AIO：Windows运行库的“瑞士军刀“如何解决你的软件兼容性难题

Java应用启动慢、接口超时、频繁Full GC？别再把锅甩给JVM了！

Android Studio中文汉化终极指南：5分钟打造母语级开发环境

ROS嵌入式部署实战：在Jetson/RPi上稳定运行机器人系统

服装贴口袋工序自动化科普：慧拿线上激光模板机全面解析

AI案例：选AI还是选人

白领 16 亿 tokens

Fastjson反序列化漏洞：从原理到实战防护的Java安全必修课

从高维数据中提取本质特征：秩提取与鲁棒子空间设计实践

银河麒麟V10 SP3 源码编译部署 PostgreSQL 18.4

跨平台资源下载神器：5分钟掌握res-downloader完整使用指南

计算机小程序毕设实战-基于 SpringBoot+UniApp 的区域文旅（冀鲁豫）旅行推荐系统设计与实现基于 SpringBoot+UniA【完整源码+LW+部署说明+演示视频，全bao一条龙等】

智人曾经这样灭绝猛犸象：AI入侵与行业灭绝

Loop Engineering ：从提示词工程到循环工程，AI 编程的范式革命

终极免费解锁：如何用Ohook完整激活Microsoft 365所有功能

电梯里同事问我：“你觉得RAG落地最难的地方在哪？”，我愣了，保安转头：“我以前干过，主要就文档预处理、召回质量、生成忠诚度”

终极SPT-AKI存档编辑器：免费开源的游戏进度管理神器

深度剖析SQL注入攻防：从MySQL语法特性到多层防护体系

淘宝闪购 AI 应用研发二面，我笑了！！！

大模型AI智能客服系 AI智能客服系统 - 全功能详细介绍

幼小衔接友好英语启蒙app深度实测，和小学教材主题同步对接

遗传算法求解背包问题：零基础实战指南

我翻脸了：“怎么现在面开发岗也要了解Transformer？”，面试官：“那你知道上下文窗口为什么有上限？为什么长对话质量越来越差吗？”

RLHF实战指南：用人类偏好对齐大模型意图

前端构建性能优化

Perplexity版权风波：RAG架构下的AI数据合规实战指南

OpenCR深度解析：ROS机器人实时控制中枢入门指南

一、50～100 tokens/s，究竟是快还是慢？

二、模型“开始得快”和“写得快”是两回事

相关文章：