当前位置：首页 > news >正文

黄仁勋的AI工厂不是PPT了：Vera Rubin量产，推理5倍碾压前代量产了，不是“即将“

news 2026/6/3 22:29:32

黄仁勋的AI工厂不是PPT了：Vera Rubin量产，推理5倍碾压前代

量产了，不是"即将"

6月1日COMPUTEX台北，NVIDIA宣布Vera Rubin平台进入全面量产。

“ramping into full production”——产线已经在跑。不是PPT上画个路线图，不是"我们计划在Q3开始小规模试产"，是现在、立刻、台湾的顶级服务器制造商已经在大规模出货基于Vera Rubin的系统了。

黄仁勋在GTC 2026上画的AI工厂蓝图，三个月后硬件就从产线上下来了。

先看硬数据：Vera Rubin vs Blackwell

Vera Rubin的核心是Rubin R100 GPU和Vera CPU。直接上参数对比：

规格项	Vera Rubin R100	Blackwell B200	提升幅度
晶体管数	3360亿	2080亿	+61.5%
制造工艺	TSMC 3nm 双芯片	TSMC 4NP	一代领先
推理性能(NVFP4)	50 PFLOPS	20 PFLOPS	2.5x
显存容量	288 GB HBM4	192 GB HBM3e	+50%
显存带宽	22 TB/s	8 TB/s	2.75x

单卡数据已经够震撼了。但Vera Rubin的设计从来不是"单卡思维"——它是一个7芯片、5种机架配置的完整平台。

NVL72机架：3.6 EFLOPS的推理怪兽

Vera Rubin的最小部署单元是NVL72机架：72个Rubin R100 GPU + 36个Vera CPU。

整机架性能：

指标	Vera Rubin NVL72	Grace Blackwell NVL72	提升
NVFP4推理	3.6 EFLOPS	~720 PFLOPS	5x
HBM总容量	20.7 TB	~13.5 TB	1.5x
HBM总带宽	1.6 PB/s	~576 TB/s	2.8x
NVLink带宽	260 TB/s	130 TB/s	2x
系统内存(CPU)	54 TB	~17 TB	3.2x
单token推理成本	—	—	降低10x
每瓦推理吞吐量	—	—	提升10x

推理成本降10倍、能效提升10倍。这两个10x才是AI工厂从概念到商业的关键——不是算力堆多高，是单位成本能不能低到让推理密集型应用跑得起。

整机架功耗120.8 kW，重量1.36吨，全液冷设计。这不是放在办公室的设备，这是数据中心的算力砖块。

Vera CPU：88核Arm，第一款原生支持FP8的CPU

Vera CPU代号Olympus，88核Armv9.2架构，支持176线程（通过NVIDIA"空间多线程"技术）。

几个关键参数：

内存：最高1.5 TB LPDDR5X，带宽1.2 TB/s
CPU-GPU互联：NVLink-C2C，带宽1.8 TB/s（比PCIe Gen6快7倍）
首创：第一款原生支持FP8精度的CPU，每核6个128位SVE2 SIMD单元

FP8 CPU意味着什么？意味着CPU本身可以直接参与低精度AI计算，不需要把数据搬到GPU再搬回来。在AI推理场景里，CPU不再是纯调度器，而是真正的计算单元。

256个Vera CPU组成的CPU机架，可以维持22,500个并行CPU沙箱。NVIDIA明确说了：这些沙箱是"为AI智能体状态管理设计的"。一个沙箱跑一个Agent，一个CPU机架同时跑2万多个Agent。

不只是GPU，是七颗芯片的平台

Vera Rubin平台不是一颗GPU就完事了。它包含7颗独立芯片，覆盖计算、互联、网络、卸载、加速全栈：

Rubin R100 GPU— 核心计算引擎，3360亿晶体管，TSMC 3nm双芯片
Vera CPU— 88核Armv9.2定制处理器，第一款原生FP8 CPU
NVLink 6交换芯片— GPU间高速互联
ConnectX-9 SuperNIC— 网络智能网卡
BlueField-4 DPU— 数据处理卸载
Spectrum-6— 以太网交换硬件
Groq LPU— 最有意思的一颗。NVIDIA把竞争对手Groq的LPU直接集成进了自己的平台栈。不是消灭对手，是把对手变成自己的加速器。Groq LPU在CUDA栈中作为透明卸载计算单元运行，128GB SRAM + 40 PB/s带宽，专门干超低延迟推理。

从机架到POD：三层规模怎么堆

NVL72机架是最小部署单元：72个GPU + 36个CPU，3.6 EFLOPS推理，液冷，120.8 kW，1.36吨。一台机架就是一个推理怪兽。

往上叠一层：256个Vera CPU组成CPU机架，可以维持22,500个并行CPU沙箱。NVIDIA明确说了这些沙箱是"为AI智能体状态管理设计的"。一个沙箱跑一个Agent，一台CPU机架同时跑2万多个Agent——这是Agent从原型走向规模化生产的基础设施。

再往上：40个机架组成一个POD级超算，1,152个GPU，60 Exaflops算力。集成1.2万亿个晶体管（近20,000枚NVIDIA裸片），10 PB/s总扩展带宽。

1.2万亿个晶体管集成在一个POD里。人脑的突触连接约100万亿，NVIDIA一个POD的晶体管数是人脑突触的1.2%。还在指数增长曲线上。

训练只需要1/4的GPU

NVIDIA给出了一个关键数据：训练大型MoE模型时，Vera Rubin只需要Blackwell1/4的GPU数量就能达到同等性能。

这意味着：如果你原来需要4000张B200来训练一个MoE模型，用Vera Rubin只需要1000张R100。GPU采购成本降75%，机房面积降75%，电力消耗降75%。

推理端更直接：单token推理成本降10倍。这是让"无限推理"成为商业可能的那个数字。

首批部署和量产时间线

首批部署的云服务商（2026下半年）：

AWS
Google Cloud
Microsoft Azure
Oracle Cloud Infrastructure
CoreWeave

NVIDIA预测到2026年底，AI芯片安装基数将从2025年底的334万块增长至768万块（B300等效单位），一年翻2.3倍。

供应链上，TSMC独家代工，Q1 2026营收357.1亿美元，计划560亿美元资本支出，亚利桑那州1650亿美元扩建GigaFab集群确保美国本土产能。三星和SK海力士负责HBM4内存供应。

OpenClaw：智能体计算的"Linux"

和硬件一起发布的还有OpenClaw——NVIDIA称之为"智能体计算的Linux"。

OpenClaw包含NemoClaw框架，兼容Claude Code等系统。它的定位是：给AI Agent提供标准化的运行环境，就像Linux给服务器软件提供标准化运行环境一样。

黄仁勋在发布会上说了一句话值得琢磨：“训练为主的AI时代已结束，未来属于能推理、使用工具、浏览网页、编写代码并与物理环境交互的AI智能体。”

Vera Rubin的整个架构设计就是为这句话服务的：CPU沙箱跑Agent状态、FP8 CPU参与推理、Groq LPU做超低延迟推理、OpenClaw提供标准化运行时。从芯片到软件，每一层都在为Agentic AI铺路。

对开发者的实际意义

推理密集型应用的开发者要注意了：推理成本降10倍，意味着很多之前"算不起"的场景变得可行了。实时语音Agent、大规模代码生成、多轮复杂推理——2026下半年Vera Rubin上线后，这些应用的经济模型会根本性改变。以前跑一次推理要1块钱，以后只要1毛，整个产品的定价策略和用户量天花板都要重新算。

Agent开发者盯住一个数字：22,500个并行CPU沙箱。加OpenClaw框架，一个Vera CPU机架同时跑2万多个Agent实例。这不再是"我先做个demo看看"，而是"我可以直接上生产"。

至于GPU采购决策：急用先买Blackwell，不急等到2026下半年Vera Rubin大批量出货。NVIDIA自己的数据说训练只需1/4的GPU数量、推理成本降10倍，但量产爬坡到实际可用需要时间。

AI工厂不是PPT了。硬件在跑，供应链在转，五大云厂商等着接货。下一步看的是：3.6 EFLOPS的推理能力，到底能催生什么样的应用。

查看全文

http://www.gsyq.cn/news/1456323.html