当前位置：首页 > news >正文

实测 GLM5.1 高速版，快到离谱还不掉智商

news 2026/5/26 14:07:32

这是苍何的第 537 篇原创大家好我是苍何。说实话用 AI Coding 这么久来最让我崩溃的一件事就是等。你让它改个组件转圈圈十几秒让它重构个模块一分钟过去了还在吐字。思路早就跑到前面去了AI 还在后面慢悠悠地挤牙膏。直到前两天智谱给了我一个 GLM-5.1 高速版的 API 内测400 tokens/s。什么概念代码不是一行一行「写」出来的是直接「喷」出来的。我第一反应是这速度怕不是牺牲了效果吧毕竟行业潜规则大家都懂快的模型约等于小模型。但实测下来打脸了。这玩意是旗舰级能力极致速度两个我全都要还真让它做到了。废话不多说直接上case。我在 Claude Code 中配了 GLM 5.1 高速版30 秒不到就给我整出了这个东西。玩家控制一个角色在 3D 地图里移动。玩家可以输入自然语言系统调用 GLM-5.1 高速版将用户输入转换成结构化 JSON 场景指令然后前端实时执行这些指令让 3D 场景立即发生变化。这个是我给的提示词你是资深全栈工程师与3D Web 游戏开发专家请从零实现一个「Text-to-World」Web Demo玩家在 Three.js/R3F 的3D 世界中移动并通过自然语言实时改变场景。用户输入“在前方生成赛博朋克城堡并切换暴雨夜晚”等文本后后端调用 GLM-5.1高速版将文本转换为结构化 JSON commandsspawn_object、set_environment、add_effect 等前端 SceneCommandExecutor 实时解析并执行让世界瞬时变化。技术栈要求 React TypeScript React Three Fiber Tailwind Node.js/Express 支持 WASD、鼠标视角、流式响应、环境天气、粒子特效、NPC、传送门等能力且 API Key 不暴露在前端。请输出完整项目架构、前后端目录结构、JSON Schema、核心执行器设计、完整可运行代码、README、环境变量配置与启动命令代码需模块化、类型清晰、具备错误处理与高实时交互体验。这个喷代码的速度服了还没反应过来就直接做完了关键效果还很不错还是那个 GLM 5.1只是真的更快了。为了更深入了解下我又把分别搭载 GLM 5.1 高速版和 DeepSeek V4 Pro 的 Claude Code 接进 WeSight。相同一个任务我们来直观的对比下一些重要指标比如输入输出 Token、TTFT、TPS 等。这个是 DeepSeek V 4 Pro 的指标估算 TPS 为 55.0总耗时 2.3 分钟。TPS 指的是模型每秒能生成多少 token总耗时是指从发送到完整结束花了多久。这里除去了模型内部推理、代理步骤做的估算 TPS实际耗时为最终文本到达 WeSight 的时间。相同的任务我把 Claude Code 里面的模型替换为 GLM 5.1 高速版TPS 直接就干到了 350虽然离官方说的 400 还有一点点差距但实际体感无法表达你还没反应过来就干完了。实际耗时变为了 2.6 秒这个体感还是非常明显的。在 WeSight 中你也能很直观的看到这个数据变化。相同的任务这是 Codex 的数据用的 GPT 5.5 highTPS 是 153.1这也符合基准网站 Artificial Analysis 给出的 OpenAI 高速模型 TPS 数据在 120~170 t/s。侧面反应 WeSight 在预估 TPS 上还是做了很多功课的。不瞒你说WeSight 的这个监控能力也是通过 GLM 5.1 高速版开发的前前后后几个小时就搞定了。现在 WeSight 支持任务状态监控了。这个是我在 WeSight 中用 Claude Code 配合 GLM 5.1 高速版 1.4 分钟就完成的宠物电商网站功能完全可用。这个视频是原速录制下来的你看下这个喷代码的速度有点可怕的太快了吧。数据详情TPS 在 300 左右总计耗时 1.4 分钟。什么概念我打个水都没打完就给我开发完了。我同样的任务用 DeepSeek V 4 Pro 试了一遍就花了差不多 4.1 分钟是 GLM 5.1 高速版耗时的十倍左右。当你把 GLM 5.1 高速版接入 Claude Code 或者 Hermes Agent、OpenClaw这才是你起飞的开始。比如你看我用飞书直接指挥搭载 GLM 5.1 高速版 Claude Code 和搭载 GPT 5.5 的 OpenClaw 同时做个爱心表白网页。你可以看到 GLM 5.1 高速版几乎是秒出结果而 GPT 5.5 花费了 47.2 s对比下来速度差了不是一点半点。而实际出来的效果是差不多的。为什么快这么多简单说下技术层面。GLM-5.1 高速版背后是智谱自研的 TileRT 推理引擎核心思路是把传统推理框架里那些零碎的算子调度、内存读写、同步等待全部干掉编译期就把整个计算图编排成一个常驻 GPU 的 Engine Kernel。通俗讲就是传统方案每算一步都要「汇报一次」TileRT 直接把整条流水线焊死在 GPU 上中间不回头一路算到底。所以 400 tokens/s 不是峰值跑分是稳定可用的生产级速度。写在最后说真的这次体验完 GLM-5.1 高速版我最大的感受是速度本身就是一种能力。以前我们评价模型看的是跑分、看的是效果。但当你真正把模型接进工作流每天跟它协作几十上百次的时候你会发现速度才是决定体验的那个变量。3 秒出结果和 30 秒出结果不只是时间差了 10 倍是你的心流状态完全不一样。快到一定程度AI 真正变成了你的实时搭档想到哪它就跟到哪。看了下目前 GLM-5.1-HighSpeed 模型仅面向部分企业客户定向开放。我是苍何AI 时代的速度战争才刚刚开始咱们下期见。

查看全文

http://www.gsyq.cn/news/1392172.html