当前位置: 首页 > news >正文

黄仁勋的AI工厂不是PPT了:Vera Rubin量产,推理5倍碾压前代 量产了,不是“即将“

黄仁勋的AI工厂不是PPT了:Vera Rubin量产,推理5倍碾压前代

量产了,不是"即将"

6月1日COMPUTEX台北,NVIDIA宣布Vera Rubin平台进入全面量产。

“ramping into full production”——产线已经在跑。不是PPT上画个路线图,不是"我们计划在Q3开始小规模试产",是现在、立刻、台湾的顶级服务器制造商已经在大规模出货基于Vera Rubin的系统了。

黄仁勋在GTC 2026上画的AI工厂蓝图,三个月后硬件就从产线上下来了。

先看硬数据:Vera Rubin vs Blackwell

Vera Rubin的核心是Rubin R100 GPU和Vera CPU。直接上参数对比:

规格项Vera Rubin R100Blackwell B200提升幅度
晶体管数3360亿2080亿+61.5%
制造工艺TSMC 3nm 双芯片TSMC 4NP一代领先
推理性能(NVFP4)50 PFLOPS20 PFLOPS2.5x
显存容量288 GB HBM4192 GB HBM3e+50%
显存带宽22 TB/s8 TB/s2.75x

单卡数据已经够震撼了。但Vera Rubin的设计从来不是"单卡思维"——它是一个7芯片、5种机架配置的完整平台。

NVL72机架:3.6 EFLOPS的推理怪兽

Vera Rubin的最小部署单元是NVL72机架:72个Rubin R100 GPU + 36个Vera CPU。

整机架性能:

指标Vera Rubin NVL72Grace Blackwell NVL72提升
NVFP4推理3.6 EFLOPS~720 PFLOPS5x
HBM总容量20.7 TB~13.5 TB1.5x
HBM总带宽1.6 PB/s~576 TB/s2.8x
NVLink带宽260 TB/s130 TB/s2x
系统内存(CPU)54 TB~17 TB3.2x
单token推理成本降低10x
每瓦推理吞吐量提升10x

推理成本降10倍、能效提升10倍。这两个10x才是AI工厂从概念到商业的关键——不是算力堆多高,是单位成本能不能低到让推理密集型应用跑得起。

整机架功耗120.8 kW,重量1.36吨,全液冷设计。这不是放在办公室的设备,这是数据中心的算力砖块。

Vera CPU:88核Arm,第一款原生支持FP8的CPU

Vera CPU代号Olympus,88核Armv9.2架构,支持176线程(通过NVIDIA"空间多线程"技术)。

几个关键参数:

  • 内存:最高1.5 TB LPDDR5X,带宽1.2 TB/s
  • CPU-GPU互联:NVLink-C2C,带宽1.8 TB/s(比PCIe Gen6快7倍)
  • 首创:第一款原生支持FP8精度的CPU,每核6个128位SVE2 SIMD单元

FP8 CPU意味着什么?意味着CPU本身可以直接参与低精度AI计算,不需要把数据搬到GPU再搬回来。在AI推理场景里,CPU不再是纯调度器,而是真正的计算单元。

256个Vera CPU组成的CPU机架,可以维持22,500个并行CPU沙箱。NVIDIA明确说了:这些沙箱是"为AI智能体状态管理设计的"。一个沙箱跑一个Agent,一个CPU机架同时跑2万多个Agent。

不只是GPU,是七颗芯片的平台

Vera Rubin平台不是一颗GPU就完事了。它包含7颗独立芯片,覆盖计算、互联、网络、卸载、加速全栈:

  • Rubin R100 GPU— 核心计算引擎,3360亿晶体管,TSMC 3nm双芯片
  • Vera CPU— 88核Armv9.2定制处理器,第一款原生FP8 CPU
  • NVLink 6交换芯片— GPU间高速互联
  • ConnectX-9 SuperNIC— 网络智能网卡
  • BlueField-4 DPU— 数据处理卸载
  • Spectrum-6— 以太网交换硬件
  • Groq LPU— 最有意思的一颗。NVIDIA把竞争对手Groq的LPU直接集成进了自己的平台栈。不是消灭对手,是把对手变成自己的加速器。Groq LPU在CUDA栈中作为透明卸载计算单元运行,128GB SRAM + 40 PB/s带宽,专门干超低延迟推理。

从机架到POD:三层规模怎么堆

NVL72机架是最小部署单元:72个GPU + 36个CPU,3.6 EFLOPS推理,液冷,120.8 kW,1.36吨。一台机架就是一个推理怪兽。

往上叠一层:256个Vera CPU组成CPU机架,可以维持22,500个并行CPU沙箱。NVIDIA明确说了这些沙箱是"为AI智能体状态管理设计的"。一个沙箱跑一个Agent,一台CPU机架同时跑2万多个Agent——这是Agent从原型走向规模化生产的基础设施。

再往上:40个机架组成一个POD级超算,1,152个GPU,60 Exaflops算力。集成1.2万亿个晶体管(近20,000枚NVIDIA裸片),10 PB/s总扩展带宽。

1.2万亿个晶体管集成在一个POD里。人脑的突触连接约100万亿,NVIDIA一个POD的晶体管数是人脑突触的1.2%。还在指数增长曲线上。

训练只需要1/4的GPU

NVIDIA给出了一个关键数据:训练大型MoE模型时,Vera Rubin只需要Blackwell1/4的GPU数量就能达到同等性能。

这意味着:如果你原来需要4000张B200来训练一个MoE模型,用Vera Rubin只需要1000张R100。GPU采购成本降75%,机房面积降75%,电力消耗降75%。

推理端更直接:单token推理成本降10倍。这是让"无限推理"成为商业可能的那个数字。

首批部署和量产时间线

首批部署的云服务商(2026下半年):

  • AWS
  • Google Cloud
  • Microsoft Azure
  • Oracle Cloud Infrastructure
  • CoreWeave

NVIDIA预测到2026年底,AI芯片安装基数将从2025年底的334万块增长至768万块(B300等效单位),一年翻2.3倍。

供应链上,TSMC独家代工,Q1 2026营收357.1亿美元,计划560亿美元资本支出,亚利桑那州1650亿美元扩建GigaFab集群确保美国本土产能。三星和SK海力士负责HBM4内存供应。

OpenClaw:智能体计算的"Linux"

和硬件一起发布的还有OpenClaw——NVIDIA称之为"智能体计算的Linux"。

OpenClaw包含NemoClaw框架,兼容Claude Code等系统。它的定位是:给AI Agent提供标准化的运行环境,就像Linux给服务器软件提供标准化运行环境一样。

黄仁勋在发布会上说了一句话值得琢磨:“训练为主的AI时代已结束,未来属于能推理、使用工具、浏览网页、编写代码并与物理环境交互的AI智能体。”

Vera Rubin的整个架构设计就是为这句话服务的:CPU沙箱跑Agent状态、FP8 CPU参与推理、Groq LPU做超低延迟推理、OpenClaw提供标准化运行时。从芯片到软件,每一层都在为Agentic AI铺路。

对开发者的实际意义

推理密集型应用的开发者要注意了:推理成本降10倍,意味着很多之前"算不起"的场景变得可行了。实时语音Agent、大规模代码生成、多轮复杂推理——2026下半年Vera Rubin上线后,这些应用的经济模型会根本性改变。以前跑一次推理要1块钱,以后只要1毛,整个产品的定价策略和用户量天花板都要重新算。

Agent开发者盯住一个数字:22,500个并行CPU沙箱。加OpenClaw框架,一个Vera CPU机架同时跑2万多个Agent实例。这不再是"我先做个demo看看",而是"我可以直接上生产"。

至于GPU采购决策:急用先买Blackwell,不急等到2026下半年Vera Rubin大批量出货。NVIDIA自己的数据说训练只需1/4的GPU数量、推理成本降10倍,但量产爬坡到实际可用需要时间。

AI工厂不是PPT了。硬件在跑,供应链在转,五大云厂商等着接货。下一步看的是:3.6 EFLOPS的推理能力,到底能催生什么样的应用。

http://www.gsyq.cn/news/1456323.html

相关文章:

  • LTX-2.3-nvfp4 vs 同类模型:为什么它是2025年最值得关注的音视频AI
  • 从无人机影像到专业地图:WebODM 3.2.4全流程自动化处理指南
  • 武汉云克隆多因子打造精准检测标杆,Luminex检测多因子赋能科研突破,一站式免疫炎症因子谱解析
  • PasteMD终极指南:如何用一键热键解决AI内容格式转换难题
  • 电路设计与PCB制作实战:从原理图到焊接调试全流程解析
  • 精准评估脏器损伤与炎症调控 新型Luminex多指标检测体系助力基础科研与药物毒理研究
  • 终极指南:如何快速批量下载网易云和QQ音乐的LRC歌词
  • 未来展望:WD 1.4 ConvNextV2 Tagger V2的发展路线图与社区支持
  • 英文论文降AIGC别盲目乱试!亲测4款主流平台,附高清优缺点避坑图
  • 基于Arduino与MAX30102的心率监测仪DIY:从光电传感原理到可穿戴实践
  • 智能财务系统部署失败真相(2024年头部企业踩坑实录)
  • SeedVR2-7B技术深度解析:基于扩散对抗训练的一步式视频修复架构
  • 从零搭建AI增强型秒杀中台,深度解析模型推理延迟压测、动态限流与库存预占协同机制
  • 告别无效爬虫:手把手教你用Playwright和Airtest绕过最新验证码与行为指纹
  • T3Q-LLM-MG-DPO-v1.0-openmind多语言支持:韩语与跨语言应用实战指南
  • 3PEAK思瑞浦 TP6001R-TR SOT23-5 运算放大器
  • 五分钟入门 强化学习---SAC算法与实现
  • 强化学习里的‘隐世高手’:拆解Robbins-Monro算法如何悄悄搞定Q-learning和策略梯度
  • 基于Arduino与MAX7219的智能LED时钟:从硬件选型到外壳制作全解析
  • 如何从安卓手机完整导出微信聊天记录?wechat-dump帮你轻松搞定
  • 2026重庆导游推荐官方解析|纯玩小团TOP榜、联系方式与避坑指南 - 随峰国旅
  • FLUX.1-dev量化推理实践:w8a16与w8a8_dynamic方案对比
  • 2026年螺杆式制冷压缩机公司推荐榜单:高效节能、稳定耐用的工业冷源实力品牌深度解析 - 品牌企业推荐师(官方)
  • OneMore插件终极指南:让OneNote笔记体验提升10倍的秘密武器
  • 2026年北方变频热氟融霜工厂推荐榜单:高效节能、稳定耐寒的冷库制冷优选品牌解析 - 品牌企业推荐师(官方)
  • 鸿蒙南向开发教程 Day 6:事件标志组(Event Flags)
  • 基于贝叶斯网络和多源信息构建可靠性分析模型方法解析【附数据】
  • 连续使用三个月向量 API 中转站,它真的适配向量落地场景吗?
  • 自主几何内核技术突破:stltostp实现STL到STEP精度达0.001mm的无损重构
  • 鸿蒙南向开发教程 Day 7:互斥锁(Mutex)