GR00T N1.5和GR00T N1.6
GR00T N1.5
An Improved Open Foundation Model for Generalist Humanoid Robots
nvidia
简介
GR00T N1.5是人形机器人的 GR00T N1 基础模型的升级版本。通过架构、数据和建模方面的多项改进,N1.5 在模拟操作基准测试和真实的 GR-1 机器人上的表现均优于 N1,详情见下文。我们预计 N1.5 的用户相较于 N1 应能观察到更好的性能,特别是在泛化能力和语言跟随( language following)能力方面的提升。
模型与数据更新
架构
与 N1 一样,GR00T N1.5 使用 NVIDIA Eagle VLM(视觉语言模型)来编码文本和视觉观测信息。来自 VLM 的视觉-语言嵌入随后被 DiT(扩散 Transformer)进行交叉注意力处理,该 DiT 负责处理状态和带噪动作。
与 N1 的主要区别如下:
- VLM 模型在预训练和微调过程中均被冻结。
- 连接视觉编码器和 LLM(大语言模型)的适配器 MLP(多层感知机)被简化,并对输入 LLM 的视觉和文本 token 嵌入均添加了层归一化。
我们发现这些修改极大地改善了语言遵循能力和泛化能力。
改进的 VLM Grounding Capabilities
我们更新了 GR00T N1.5 的 VLM,基于 Eagle 2.5 并针对更好的grounding capabilities和物理理解进行了调优。在 RefCOCOG 和我们内部 GEAR GR-1 Grounding数据集上,我们观察到 N1.5 VLM 模型的表现优于 Qwen2.5-VL-3B。
| 模型 | 规模 | GR-1 接地 IoU (↑) | RefCOCOG-val IoU (↑) |
|---|---|---|---|
| Qwen2.5VL | 3B | 35.5 | 85.2 |
| GR00T N1.5 VLM | 2.1B | 40.4 | 89.6 |
模型和数据改进
- 冻结 VLM:视觉-语言模型在预训练和微调过程中均保持冻结,保留了语言理解能力并提高了泛化能力。
- 增强的 VLM Grounding:升级至 Eagle 2.5,具有改进的接地能力和物理理解能力,在 GR-1 Grounding任务上达到了 40.4 IoU(而 Qwen2.5VL 为 35.5)。
- 简化的适配器:简化了视觉编码器和 LLM 之间的 MLP 连接,并增加了层归一化。
- FLARE 集成:在流匹配损失(flow matching loss)之外增加了未来潜在表征对齐FLARE目标,从而能够从人类第一人称视频中有效学习。
- DreamGen 集成:整合了通过 DreamGen生成的合成神经轨迹,以实现对超越遥操作数据的新颖行为和任务的泛化。
性能改进
- 语言跟随:与 N1 相比,语言命令跟随能力显著提升——在 GR-1 操作任务上,成功率从 46.6% 提升至 93.3%。
- 数据效率:在低数据机制(0-shot 和少样本场景)下表现更好。
- 更好的新物体泛化能力。
- 新的具身头(Embodiment Heads):通过
EmbodimentTag.OXE_DROID头增加了对具有末端执行器(EEF)控制空间的单臂机器人的支持,并通过EmbodimentTag.AGIBOT_GENIE1头增加了对带有夹爪的人形机器人的支持,从而超越了关节空间控制,实现了更广泛的机器人兼容性。
联合策略学习与世界建模目标
除了 N1 使用的流匹配损失外,对于 N1.5,我们增加了未来潜在表征对齐(Future Latent Representation Alignment,见 FLARE 项目)。FLARE 不是以生成方式对未来帧进行建模,而是将模型与目标未来嵌入对齐。我们发现,添加 FLARE 既提高了策略性能,又开启了从人类视频中学习的能力。
训练
我们在 1000 张 H100 GPU 上对 GR00T N1.5 进行了 25 万步的训练,全局批次大小为 16384。与 N1 一样,我们使用了带有预热比例为 0.05 的余弦学习率调度器的 AdamW 优化器。我们在预训练和后训练中都使用了 0.2 的 FLARE 损失系数。
我们的预训练混合数据包括内部 GR-1 数据、OpenXE、模拟 GR-1(即 DexMG)、来自 DreamGen 的神经轨迹以及 AgiBot-Beta:
Distribution of training data in GR00T N1.5 pretraining.
实验结果
架构验证
为了调整 N1.5 的模型架构,我们在两个需要语言following的模拟机器人基准测试上从头开始训练了策略:“Language Table” 和一组五个需要语言的模拟 GR-1 任务(“Sim GR-1 Language”)。我们发现 N1.5 架构在这两个基准测试上都取得了显著更高的成功率,表明其具有更强的语言条件控制能力。
| 基准测试 | GR00T N1 (从头训练) | GR00T N1.5 (从头训练) |
|---|---|---|
| Language table | 52.8% | 93.2% |
| Sim GR-1 Language | 36.4% | 54.4% |
模拟环境中的数据受限后训练
遵循 GR00T N1 的评估协议,我们评估了 N1.5 在数据受限后训练中的表现。对于 Sim GR-1,我们可以评估少样本和零样本情况,因为预训练混合数据包含了其他具有相同具身形态的 Sim GR-1 任务。我们发现 N1.5 在极低数据量情况下(零样本和 30 次演示)表现显著更好。
| 模拟基准测试 | GR00T N1 | GR00T N1.5 |
|---|---|---|
| RoboCasa,每任务 30 次演示 | 17.4 | 47.5 |
| Sim GR-1,零样本 | 39.6 | 43.9 |
| SimGR-1,每任务 30 次演示 | 43.2 | 47.4 |
真实 GR-1 语言following
我们在真实的 GR-1 评估中增加了一个简单的语言following任务:桌子上有两个水果,要求机器人将其中一个放到盘子上。目标水果的初始位置被采样为以 50% 的概率更靠近左手或右手。
| 设置 | GR00T N1 | GR00T N1.5 |
|---|---|---|
| 语言following率 | 46.6% | 93.3% |
| 总体成功率 | 43.3% | 83.0% |
我们发现,在真实 GR-1 机器人上follow语言指令的能力方面,N1.5 相比 N1 有显著提升。虽然两种策略都能一致地将某些水果抓取并放置到盘子上,但 N1.5 的语言遵循率高得多,从而带来了更高的总体成功率。
从人类第一视角视频中学习操作新物体
为了评估模型的泛化能力,我们使用一组在预训练期间未见过的 10 个新物体来评估抓取和放置的性能。
正如FLARE项目所示,未来潜在表征对齐(future latent representation alignment)使得能够直接从人类第一视角视频中学习。这允许利用人类视频和极少量的机器人演示来学习操纵新物体。在使用 N1.5 时,我们发现这也适用于零样本(zero-shot)场景。
| Setting | GR00T N1 | GR00T N1.5 |
|---|---|---|
| 0-shot | 0% | 15.0% |
| FLARE post-trained on human videos including novel objects | - | 55.0% |
新物体泛化性能。我们观察到 N1.5 不仅在 zero-shot 设置下表现更好,而且还能从与真人视频的联合训练中获益。
利用神经轨迹泛化到新行为
为了超越遥操作数据的局限,使人形机器人能够在新环境中学习新任务,我们使用DreamGen生成合成机器人数据用于训练。
通过 DreamGen 流水线,我们展示了 GR00T N1.5 可以在 12 个新动词上取得非平凡的结果(详见 DreamGen 博客文章以了解任务详情),这些动词是通过我们的流水线添加到预训练数据中的。GR00T N1 对新动词仅表现出微弱的泛化能力,只能重复预训练中包含的任务(例如,拾取和放置)。我们发现,GR00T N1.5 在 12 个 DreamGen 任务中达到了 38.3% 的成功率,而 GR00T N1 仅为 13.1%。虽然从我们从未为这些任务收集过遥操作数据这个意义上说,这些新动词可以被视为“零样本(zero-shot)”,但我们仍然通过 DreamGen 轨迹显式地对它们进行了训练;将完全的零样本动词和环境泛化留待未来的工作。
在 Unitree G1 上的后训练
我们在 Unitree G1 机器人上收集的 1K 个遥操作片段上对 GR00T N1 和 N1.5 进行后训练。与 GR-1 语言跟随实验一样,我们用一个目标物体和一个干扰物体初始化场景,目标物体距离左手或右手的概率相等。我们观察到,对于之前见过的物体(在 GR-1 预训练语料库中见过的玩具水果),经过后训练的 GR00T N1.5 比 N1 取得了高得多的成功率,并且也展示了对各种先前未见物体的泛化能力。
| Model | GR00T N1, 1K Demos | GR00T N1.5, 1K Demos | GR00T N1.5, 1K Demos |
|---|---|---|---|
| Task | Place 1 of 2 fruits onto plate; 4 total fruits | Place 1 of 2 fruits onto plate; 4 total fruits | Place 1 of 2 objects onto plate; 5 novel objects |
| Scene | - | - | - |
| Success rate | 44.0% | 98.8% | 84.2% |
Discussion
总体而言,我们看到 GR00T-N1.5 相比 GR00T-N1 有了显著的改进。它实现了更高的成功率,可以使用更多样化的数据源,并且具有显著改进的语言遵循能力。我们将这些改进归因于增强的grounding capabilities、FLARE loss 的使用以及来自 DreamGen 的多样化数据。
GR00T N1.6
简介
我们推出了 GR00T N1.6,这是针对人形机器人的 GR00T N1.5 基础模型的改进版本。通过多项架构、数据和建模方面的改进,我们发现 N1.6 在模拟操作基准测试以及真实的 Bimanual YAM、Agibot Genie-1 和 Unitree G1 机器人上的表现均优于 N1.5,详情如下。我们预计 N1.6 的用户应能观察到比 N1.5 更好的训练后性能。
模型和数据改进
架构变更:
- 基础 VLM(视觉-语言模型):我们使用了内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率,能够以原始纵横比对图像进行编码而无需填充(Padding)。该 VLM 在通用视觉-语言任务和具身推理任务(如“下一个动作预测”)上进行了联合训练。
- 扩散 Transformer:DiT 层数扩大至原来的 2 倍(N1.6 为 32 层,而 N1.5 为 16 层)。
- 移除适配器层:移除了 N1.5 中 VLM 后的 4 层 Transformer 适配器。取而代之的是,我们在预训练期间解冻了 VLM 的顶部 4 层进行协同训练。
- 动作范式调整:针对大多数具身形态,模型预测“状态相关的动作块(state-relative action chunks)”,而不是绝对关节角度或末端执行器(EEF)位置。
除了 N1.5 的数据混合外,N1.6 的预训练数据还额外包含了来自以下来源的数千小时遥操作数据:
- Bimanual YAM 双臂机械臂
- AGIBot Genie1
- 在 BEHAVIOR 套件上模拟的 Galaxea R1 Pro
- 使用 Unitree G1 进行的全身移动操作(Locomanipulation)
讨论
对于 GR00T N1.6,我们进行了比 GR00T N1.5 更复杂的现实世界机器人实验,这些实验需要长视野推理、灵巧性和多任务处理能力。在扩大现实世界实验规模时,我们结合了从机器人学习社区学到的各种经验教训,以提高模型在推演(rollouts)过程中的成功率。
- 相对动作被用作大多数具身形态的默认动作空间。我们的实验表明,相对动作比绝对动作能产生更平滑、更准确的运动。然而,在小数据集上,相对动作容易出现误差累积,从而影响修正能力。
- 预训练统计量在任务分布与预训练数据相似时可以提高性能;否则,模型可能会欠拟合。因此,当分布不同时,我们会使用后训练统计量。
- GR00T N1.6 比 GR00T N1.5收敛更快,从而产生更平滑的动作,但也需要更仔细的调优以防止过拟合。我们在后训练期间应用了更强的状态正则化、额外的数据增强以及与预训练数据的联合训练来对模型进行正则化。
- DAgger能有效提高模型性能;建议在模型在现实世界实验中表现不佳时使用。
- 测试时和训练时的实时控制RTC在异步推演(rollouts)过程中显著提升了动作的平滑度和鲁棒性。我们在 Unitree G1 和 Bimanual YAM 实验中采用了这一技术。
- 多任务语言跟随和分布外任务泛化对当前的 VLA 模型来说仍然是挑战。更细粒度的子任务标注可以改善语言跟随能力,但尚未达到鲁棒的泛化水平。这将是未来研究中持续努力的方向。
- Rollouts:在机器人学习和强化学习中,通常指模型在环境中执行动作并观察结果的序列过程,可译为“推演”、“部署”或“采样”。
- DAgger:Dataset Aggregation,一种模仿学习算法,通过迭代收集专家在模型预测状态下的纠正数据来训练策略。
- VLA:Vision-Language-Action,视觉-语言-动作模型,一种结合了视觉感知、语言理解和动作生成的多模态AI模型。
