当前位置：首页 > news >正文

GR00T N1.5和GR00T N1.6

news 2026/6/18 0:31:34

GR00T N1.5

An Improved Open Foundation Model for Generalist Humanoid Robots

nvidia

简介

GR00T N1.5是人形机器人的 GR00T N1 基础模型的升级版本。通过架构、数据和建模方面的多项改进，N1.5 在模拟操作基准测试和真实的 GR-1 机器人上的表现均优于 N1，详情见下文。我们预计 N1.5 的用户相较于 N1 应能观察到更好的性能，特别是在泛化能力和语言跟随（ language following）能力方面的提升。

模型与数据更新

架构

与 N1 一样，GR00T N1.5 使用 NVIDIA Eagle VLM（视觉语言模型）来编码文本和视觉观测信息。来自 VLM 的视觉-语言嵌入随后被 DiT（扩散 Transformer）进行交叉注意力处理，该 DiT 负责处理状态和带噪动作。

与 N1 的主要区别如下：

VLM 模型在预训练和微调过程中均被冻结。
连接视觉编码器和 LLM（大语言模型）的适配器 MLP（多层感知机）被简化，并对输入 LLM 的视觉和文本 token 嵌入均添加了层归一化。

我们发现这些修改极大地改善了语言遵循能力和泛化能力。

改进的 VLM Grounding Capabilities

我们更新了 GR00T N1.5 的 VLM，基于 Eagle 2.5 并针对更好的grounding capabilities和物理理解进行了调优。在 RefCOCOG 和我们内部 GEAR GR-1 Grounding数据集上，我们观察到 N1.5 VLM 模型的表现优于 Qwen2.5-VL-3B。

模型	规模	GR-1 接地 IoU (↑)	RefCOCOG-val IoU (↑)
Qwen2.5VL	3B	35.5	85.2
GR00T N1.5 VLM	2.1B	40.4	89.6

模型和数据改进

冻结 VLM：视觉-语言模型在预训练和微调过程中均保持冻结，保留了语言理解能力并提高了泛化能力。
增强的 VLM Grounding：升级至 Eagle 2.5，具有改进的接地能力和物理理解能力，在 GR-1 Grounding任务上达到了 40.4 IoU（而 Qwen2.5VL 为 35.5）。
简化的适配器：简化了视觉编码器和 LLM 之间的 MLP 连接，并增加了层归一化。
FLARE 集成：在流匹配损失（flow matching loss）之外增加了未来潜在表征对齐FLARE目标，从而能够从人类第一人称视频中有效学习。
DreamGen 集成：整合了通过 DreamGen生成的合成神经轨迹，以实现对超越遥操作数据的新颖行为和任务的泛化。

性能改进

语言跟随：与 N1 相比，语言命令跟随能力显著提升——在 GR-1 操作任务上，成功率从 46.6% 提升至 93.3%。
数据效率：在低数据机制（0-shot 和少样本场景）下表现更好。
更好的新物体泛化能力。
新的具身头（Embodiment Heads）：通过EmbodimentTag.OXE_DROID头增加了对具有末端执行器（EEF）控制空间的单臂机器人的支持，并通过EmbodimentTag.AGIBOT_GENIE1头增加了对带有夹爪的人形机器人的支持，从而超越了关节空间控制，实现了更广泛的机器人兼容性。

联合策略学习与世界建模目标

除了 N1 使用的流匹配损失外，对于 N1.5，我们增加了未来潜在表征对齐（Future Latent Representation Alignment，见 FLARE 项目）。FLARE 不是以生成方式对未来帧进行建模，而是将模型与目标未来嵌入对齐。我们发现，添加 FLARE 既提高了策略性能，又开启了从人类视频中学习的能力。

训练

我们在 1000 张 H100 GPU 上对 GR00T N1.5 进行了 25 万步的训练，全局批次大小为 16384。与 N1 一样，我们使用了带有预热比例为 0.05 的余弦学习率调度器的 AdamW 优化器。我们在预训练和后训练中都使用了 0.2 的 FLARE 损失系数。

我们的预训练混合数据包括内部 GR-1 数据、OpenXE、模拟 GR-1（即 DexMG）、来自 DreamGen 的神经轨迹以及 AgiBot-Beta：

Distribution of training data in GR00T N1.5 pretraining.

实验结果

架构验证

为了调整 N1.5 的模型架构，我们在两个需要语言following的模拟机器人基准测试上从头开始训练了策略：“Language Table” 和一组五个需要语言的模拟 GR-1 任务（“Sim GR-1 Language”）。我们发现 N1.5 架构在这两个基准测试上都取得了显著更高的成功率，表明其具有更强的语言条件控制能力。

基准测试	GR00T N1 (从头训练)	GR00T N1.5 (从头训练)
Language table	52.8%	93.2%
Sim GR-1 Language	36.4%	54.4%

模拟环境中的数据受限后训练

遵循 GR00T N1 的评估协议，我们评估了 N1.5 在数据受限后训练中的表现。对于 Sim GR-1，我们可以评估少样本和零样本情况，因为预训练混合数据包含了其他具有相同具身形态的 Sim GR-1 任务。我们发现 N1.5 在极低数据量情况下（零样本和 30 次演示）表现显著更好。

模拟基准测试	GR00T N1	GR00T N1.5
RoboCasa，每任务 30 次演示	17.4	47.5
Sim GR-1，零样本	39.6	43.9
SimGR-1，每任务 30 次演示	43.2	47.4

真实 GR-1 语言following

我们在真实的 GR-1 评估中增加了一个简单的语言following任务：桌子上有两个水果，要求机器人将其中一个放到盘子上。目标水果的初始位置被采样为以 50% 的概率更靠近左手或右手。

设置	GR00T N1	GR00T N1.5
语言following率	46.6%	93.3%
总体成功率	43.3%	83.0%

我们发现，在真实 GR-1 机器人上follow语言指令的能力方面，N1.5 相比 N1 有显著提升。虽然两种策略都能一致地将某些水果抓取并放置到盘子上，但 N1.5 的语言遵循率高得多，从而带来了更高的总体成功率。

从人类第一视角视频中学习操作新物体

为了评估模型的泛化能力，我们使用一组在预训练期间未见过的 10 个新物体来评估抓取和放置的性能。

正如FLARE项目所示，未来潜在表征对齐（future latent representation alignment）使得能够直接从人类第一视角视频中学习。这允许利用人类视频和极少量的机器人演示来学习操纵新物体。在使用 N1.5 时，我们发现这也适用于零样本（zero-shot）场景。

Setting	GR00T N1	GR00T N1.5
0-shot	0%	15.0%
FLARE post-trained on human videos including novel objects	-	55.0%

新物体泛化性能。我们观察到 N1.5 不仅在 zero-shot 设置下表现更好，而且还能从与真人视频的联合训练中获益。

利用神经轨迹泛化到新行为

为了超越遥操作数据的局限，使人形机器人能够在新环境中学习新任务，我们使用DreamGen生成合成机器人数据用于训练。

通过 DreamGen 流水线，我们展示了 GR00T N1.5 可以在 12 个新动词上取得非平凡的结果（详见 DreamGen 博客文章以了解任务详情），这些动词是通过我们的流水线添加到预训练数据中的。GR00T N1 对新动词仅表现出微弱的泛化能力，只能重复预训练中包含的任务（例如，拾取和放置）。我们发现，GR00T N1.5 在 12 个 DreamGen 任务中达到了 38.3% 的成功率，而 GR00T N1 仅为 13.1%。虽然从我们从未为这些任务收集过遥操作数据这个意义上说，这些新动词可以被视为“零样本（zero-shot）”，但我们仍然通过 DreamGen 轨迹显式地对它们进行了训练；将完全的零样本动词和环境泛化留待未来的工作。

在 Unitree G1 上的后训练

我们在 Unitree G1 机器人上收集的 1K 个遥操作片段上对 GR00T N1 和 N1.5 进行后训练。与 GR-1 语言跟随实验一样，我们用一个目标物体和一个干扰物体初始化场景，目标物体距离左手或右手的概率相等。我们观察到，对于之前见过的物体（在 GR-1 预训练语料库中见过的玩具水果），经过后训练的 GR00T N1.5 比 N1 取得了高得多的成功率，并且也展示了对各种先前未见物体的泛化能力。

Model	GR00T N1, 1K Demos	GR00T N1.5, 1K Demos	GR00T N1.5, 1K Demos
Task	Place 1 of 2 fruits onto plate; 4 total fruits	Place 1 of 2 fruits onto plate; 4 total fruits	Place 1 of 2 objects onto plate; 5 novel objects
Scene	-	-	-
Success rate	44.0%	98.8%	84.2%

Discussion

总体而言，我们看到 GR00T-N1.5 相比 GR00T-N1 有了显著的改进。它实现了更高的成功率，可以使用更多样化的数据源，并且具有显著改进的语言遵循能力。我们将这些改进归因于增强的grounding capabilities、FLARE loss 的使用以及来自 DreamGen 的多样化数据。

GR00T N1.6

简介

我们推出了 GR00T N1.6，这是针对人形机器人的 GR00T N1.5 基础模型的改进版本。通过多项架构、数据和建模方面的改进，我们发现 N1.6 在模拟操作基准测试以及真实的 Bimanual YAM、Agibot Genie-1 和 Unitree G1 机器人上的表现均优于 N1.5，详情如下。我们预计 N1.6 的用户应能观察到比 N1.5 更好的训练后性能。

模型和数据改进

架构变更：

基础 VLM（视觉-语言模型）：我们使用了内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率，能够以原始纵横比对图像进行编码而无需填充（Padding）。该 VLM 在通用视觉-语言任务和具身推理任务（如“下一个动作预测”）上进行了联合训练。
扩散 Transformer：DiT 层数扩大至原来的 2 倍（N1.6 为 32 层，而 N1.5 为 16 层）。
移除适配器层：移除了 N1.5 中 VLM 后的 4 层 Transformer 适配器。取而代之的是，我们在预训练期间解冻了 VLM 的顶部 4 层进行协同训练。
动作范式调整：针对大多数具身形态，模型预测“状态相关的动作块（state-relative action chunks）”，而不是绝对关节角度或末端执行器（EEF）位置。

除了 N1.5 的数据混合外，N1.6 的预训练数据还额外包含了来自以下来源的数千小时遥操作数据：

Bimanual YAM 双臂机械臂
AGIBot Genie1
在 BEHAVIOR 套件上模拟的 Galaxea R1 Pro
使用 Unitree G1 进行的全身移动操作（Locomanipulation）

讨论

对于 GR00T N1.6，我们进行了比 GR00T N1.5 更复杂的现实世界机器人实验，这些实验需要长视野推理、灵巧性和多任务处理能力。在扩大现实世界实验规模时，我们结合了从机器人学习社区学到的各种经验教训，以提高模型在推演（rollouts）过程中的成功率。

相对动作被用作大多数具身形态的默认动作空间。我们的实验表明，相对动作比绝对动作能产生更平滑、更准确的运动。然而，在小数据集上，相对动作容易出现误差累积，从而影响修正能力。
预训练统计量在任务分布与预训练数据相似时可以提高性能；否则，模型可能会欠拟合。因此，当分布不同时，我们会使用后训练统计量。
GR00T N1.6 比 GR00T N1.5收敛更快，从而产生更平滑的动作，但也需要更仔细的调优以防止过拟合。我们在后训练期间应用了更强的状态正则化、额外的数据增强以及与预训练数据的联合训练来对模型进行正则化。
DAgger能有效提高模型性能；建议在模型在现实世界实验中表现不佳时使用。
测试时和训练时的实时控制RTC在异步推演（rollouts）过程中显著提升了动作的平滑度和鲁棒性。我们在 Unitree G1 和 Bimanual YAM 实验中采用了这一技术。
多任务语言跟随和分布外任务泛化对当前的 VLA 模型来说仍然是挑战。更细粒度的子任务标注可以改善语言跟随能力，但尚未达到鲁棒的泛化水平。这将是未来研究中持续努力的方向。