当前位置: 首页 > news >正文

GR00T N1.5和GR00T N1.6

GR00T N1.5

An Improved Open Foundation Model for Generalist Humanoid Robots

nvidia

简介

GR00T N1.5是人形机器人的 GR00T N1 基础模型的升级版本。通过架构、数据和建模方面的多项改进,N1.5 在模拟操作基准测试和真实的 GR-1 机器人上的表现均优于 N1,详情见下文。我们预计 N1.5 的用户相较于 N1 应能观察到更好的性能,特别是在泛化能力和语言跟随( language following)能力方面的提升。

模型与数据更新

架构

与 N1 一样,GR00T N1.5 使用 NVIDIA Eagle VLM(视觉语言模型)来编码文本和视觉观测信息。来自 VLM 的视觉-语言嵌入随后被 DiT(扩散 Transformer)进行交叉注意力处理,该 DiT 负责处理状态和带噪动作。

与 N1 的主要区别如下:

  • VLM 模型在预训练和微调过程中均被冻结。
  • 连接视觉编码器和 LLM(大语言模型)的适配器 MLP(多层感知机)被简化,并对输入 LLM 的视觉和文本 token 嵌入均添加了层归一化。

我们发现这些修改极大地改善了语言遵循能力和泛化能力。

改进的 VLM Grounding Capabilities

我们更新了 GR00T N1.5 的 VLM,基于 Eagle 2.5 并针对更好的grounding capabilities和物理理解进行了调优。在 RefCOCOG 和我们内部 GEAR GR-1 Grounding数据集上,我们观察到 N1.5 VLM 模型的表现优于 Qwen2.5-VL-3B。

模型规模GR-1 接地 IoU (↑)RefCOCOG-val IoU (↑)
Qwen2.5VL3B35.585.2
GR00T N1.5 VLM2.1B40.489.6
模型和数据改进
  • 冻结 VLM:视觉-语言模型在预训练和微调过程中均保持冻结,保留了语言理解能力并提高了泛化能力。
  • 增强的 VLM Grounding:升级至 Eagle 2.5,具有改进的接地能力和物理理解能力,在 GR-1 Grounding任务上达到了 40.4 IoU(而 Qwen2.5VL 为 35.5)。
  • 简化的适配器:简化了视觉编码器和 LLM 之间的 MLP 连接,并增加了层归一化。
  • FLARE 集成:在流匹配损失(flow matching loss)之外增加了未来潜在表征对齐FLARE目标,从而能够从人类第一人称视频中有效学习。
  • DreamGen 集成:整合了通过 DreamGen生成的合成神经轨迹,以实现对超越遥操作数据的新颖行为和任务的泛化。
性能改进
  • 语言跟随:与 N1 相比,语言命令跟随能力显著提升——在 GR-1 操作任务上,成功率从 46.6% 提升至 93.3%。
  • 数据效率:在低数据机制(0-shot 和少样本场景)下表现更好。
  • 更好的新物体泛化能力
  • 新的具身头(Embodiment Heads):通过EmbodimentTag.OXE_DROID头增加了对具有末端执行器(EEF)控制空间的单臂机器人的支持,并通过EmbodimentTag.AGIBOT_GENIE1头增加了对带有夹爪的人形机器人的支持,从而超越了关节空间控制,实现了更广泛的机器人兼容性。

联合策略学习与世界建模目标

除了 N1 使用的流匹配损失外,对于 N1.5,我们增加了未来潜在表征对齐(Future Latent Representation Alignment,见 FLARE 项目)。FLARE 不是以生成方式对未来帧进行建模,而是将模型与目标未来嵌入对齐。我们发现,添加 FLARE 既提高了策略性能,又开启了从人类视频中学习的能力。

训练

我们在 1000 张 H100 GPU 上对 GR00T N1.5 进行了 25 万步的训练,全局批次大小为 16384。与 N1 一样,我们使用了带有预热比例为 0.05 的余弦学习率调度器的 AdamW 优化器。我们在预训练和后训练中都使用了 0.2 的 FLARE 损失系数。

我们的预训练混合数据包括内部 GR-1 数据、OpenXE、模拟 GR-1(即 DexMG)、来自 DreamGen 的神经轨迹以及 AgiBot-Beta:

Distribution of training data in GR00T N1.5 pretraining.

实验结果

架构验证

为了调整 N1.5 的模型架构,我们在两个需要语言following的模拟机器人基准测试上从头开始训练了策略:“Language Table” 和一组五个需要语言的模拟 GR-1 任务(“Sim GR-1 Language”)。我们发现 N1.5 架构在这两个基准测试上都取得了显著更高的成功率,表明其具有更强的语言条件控制能力。

基准测试GR00T N1 (从头训练)GR00T N1.5 (从头训练)
Language table52.8%93.2%
Sim GR-1 Language36.4%54.4%
模拟环境中的数据受限后训练

遵循 GR00T N1 的评估协议,我们评估了 N1.5 在数据受限后训练中的表现。对于 Sim GR-1,我们可以评估少样本和零样本情况,因为预训练混合数据包含了其他具有相同具身形态的 Sim GR-1 任务。我们发现 N1.5 在极低数据量情况下(零样本和 30 次演示)表现显著更好。

模拟基准测试GR00T N1GR00T N1.5
RoboCasa,每任务 30 次演示17.447.5
Sim GR-1,零样本39.643.9
SimGR-1,每任务 30 次演示43.247.4
真实 GR-1 语言following

我们在真实的 GR-1 评估中增加了一个简单的语言following任务:桌子上有两个水果,要求机器人将其中一个放到盘子上。目标水果的初始位置被采样为以 50% 的概率更靠近左手或右手。

设置GR00T N1GR00T N1.5
语言following率46.6%93.3%
总体成功率43.3%83.0%

我们发现,在真实 GR-1 机器人上follow语言指令的能力方面,N1.5 相比 N1 有显著提升。虽然两种策略都能一致地将某些水果抓取并放置到盘子上,但 N1.5 的语言遵循率高得多,从而带来了更高的总体成功率。

从人类第一视角视频中学习操作新物体

为了评估模型的泛化能力,我们使用一组在预训练期间未见过的 10 个新物体来评估抓取和放置的性能。

正如FLARE项目所示,未来潜在表征对齐(future latent representation alignment)使得能够直接从人类第一视角视频中学习。这允许利用人类视频和极少量的机器人演示来学习操纵新物体。在使用 N1.5 时,我们发现这也适用于零样本(zero-shot)场景。

SettingGR00T N1GR00T N1.5
0-shot0%15.0%
FLARE post-trained on human videos including novel objects-55.0%

新物体泛化性能。我们观察到 N1.5 不仅在 zero-shot 设置下表现更好,而且还能从与真人视频的联合训练中获益。

利用神经轨迹泛化到新行为

为了超越遥操作数据的局限,使人形机器人能够在新环境中学习新任务,我们使用DreamGen生成合成机器人数据用于训练。

通过 DreamGen 流水线,我们展示了 GR00T N1.5 可以在 12 个新动词上取得非平凡的结果(详见 DreamGen 博客文章以了解任务详情),这些动词是通过我们的流水线添加到预训练数据中的。GR00T N1 对新动词仅表现出微弱的泛化能力,只能重复预训练中包含的任务(例如,拾取和放置)。我们发现,GR00T N1.5 在 12 个 DreamGen 任务中达到了 38.3% 的成功率,而 GR00T N1 仅为 13.1%。虽然从我们从未为这些任务收集过遥操作数据这个意义上说,这些新动词可以被视为“零样本(zero-shot)”,但我们仍然通过 DreamGen 轨迹显式地对它们进行了训练;将完全的零样本动词和环境泛化留待未来的工作。

在 Unitree G1 上的后训练

我们在 Unitree G1 机器人上收集的 1K 个遥操作片段上对 GR00T N1 和 N1.5 进行后训练。与 GR-1 语言跟随实验一样,我们用一个目标物体和一个干扰物体初始化场景,目标物体距离左手或右手的概率相等。我们观察到,对于之前见过的物体(在 GR-1 预训练语料库中见过的玩具水果),经过后训练的 GR00T N1.5 比 N1 取得了高得多的成功率,并且也展示了对各种先前未见物体的泛化能力。

ModelGR00T N1, 1K DemosGR00T N1.5, 1K DemosGR00T N1.5, 1K Demos
TaskPlace 1 of 2 fruits onto plate; 4 total fruitsPlace 1 of 2 fruits onto plate; 4 total fruitsPlace 1 of 2 objects onto plate; 5 novel objects
Scene---
Success rate44.0%98.8%84.2%

Discussion

总体而言,我们看到 GR00T-N1.5 相比 GR00T-N1 有了显著的改进。它实现了更高的成功率,可以使用更多样化的数据源,并且具有显著改进的语言遵循能力。我们将这些改进归因于增强的grounding capabilities、FLARE loss 的使用以及来自 DreamGen 的多样化数据。

GR00T N1.6

简介

我们推出了 GR00T N1.6,这是针对人形机器人的 GR00T N1.5 基础模型的改进版本。通过多项架构、数据和建模方面的改进,我们发现 N1.6 在模拟操作基准测试以及真实的 Bimanual YAM、Agibot Genie-1 和 Unitree G1 机器人上的表现均优于 N1.5,详情如下。我们预计 N1.6 的用户应能观察到比 N1.5 更好的训练后性能。

模型和数据改进

架构变更:

  • 基础 VLM(视觉-语言模型):我们使用了内部的 NVIDIA Cosmos-2B VLM 变体。该 VLM 支持灵活分辨率,能够以原始纵横比对图像进行编码而无需填充(Padding)。该 VLM 在通用视觉-语言任务和具身推理任务(如“下一个动作预测”)上进行了联合训练。
  • 扩散 Transformer:DiT 层数扩大至原来的 2 倍(N1.6 为 32 层,而 N1.5 为 16 层)。
  • 移除适配器层:移除了 N1.5 中 VLM 后的 4 层 Transformer 适配器。取而代之的是,我们在预训练期间解冻了 VLM 的顶部 4 层进行协同训练。
  • 动作范式调整:针对大多数具身形态,模型预测“状态相关的动作块(state-relative action chunks)”,而不是绝对关节角度或末端执行器(EEF)位置。

除了 N1.5 的数据混合外,N1.6 的预训练数据还额外包含了来自以下来源的数千小时遥操作数据:

  • Bimanual YAM 双臂机械臂
  • AGIBot Genie1
  • 在 BEHAVIOR 套件上模拟的 Galaxea R1 Pro
  • 使用 Unitree G1 进行的全身移动操作(Locomanipulation)

讨论

对于 GR00T N1.6,我们进行了比 GR00T N1.5 更复杂的现实世界机器人实验,这些实验需要长视野推理、灵巧性和多任务处理能力。在扩大现实世界实验规模时,我们结合了从机器人学习社区学到的各种经验教训,以提高模型在推演(rollouts)过程中的成功率。

  • 相对动作被用作大多数具身形态的默认动作空间。我们的实验表明,相对动作比绝对动作能产生更平滑、更准确的运动。然而,在小数据集上,相对动作容易出现误差累积,从而影响修正能力。
  • 预训练统计量在任务分布与预训练数据相似时可以提高性能;否则,模型可能会欠拟合。因此,当分布不同时,我们会使用后训练统计量
  • GR00T N1.6 比 GR00T N1.5收敛更快,从而产生更平滑的动作,但也需要更仔细的调优以防止过拟合。我们在后训练期间应用了更强的状态正则化、额外的数据增强以及与预训练数据的联合训练来对模型进行正则化。
  • DAgger能有效提高模型性能;建议在模型在现实世界实验中表现不佳时使用。
  • 测试时和训练时的实时控制RTC在异步推演(rollouts)过程中显著提升了动作的平滑度和鲁棒性。我们在 Unitree G1 和 Bimanual YAM 实验中采用了这一技术。
  • 多任务语言跟随和分布外任务泛化对当前的 VLA 模型来说仍然是挑战。更细粒度的子任务标注可以改善语言跟随能力,但尚未达到鲁棒的泛化水平。这将是未来研究中持续努力的方向。
  1. Rollouts:在机器人学习和强化学习中,通常指模型在环境中执行动作并观察结果的序列过程,可译为“推演”、“部署”或“采样”。
  2. DAgger:Dataset Aggregation,一种模仿学习算法,通过迭代收集专家在模型预测状态下的纠正数据来训练策略。
  3. VLA:Vision-Language-Action,视觉-语言-动作模型,一种结合了视觉感知、语言理解和动作生成的多模态AI模型。
http://www.gsyq.cn/news/1544747.html

相关文章:

  • 2026年社区散酒铺优选品牌推荐:产品品类、社区适配度与加盟扶持全对比 - 科技焦点
  • 2026全国GEO服务公司推荐:十大AI搜索优化团队对比 - IT老炮老刘
  • ZigBee设备电源管理与设备识别:ZCL集群工程化实现详解
  • 深度解析微信数据合规挑战:从技术探索到法律边界的思考
  • 【嵌入式烧录实战】- 利用Vector HexView命令行实现Hex文件指定地址数据的批量自动化处理
  • 2026年崂山区专业的柜机空调维修公司口碑参考 - 品牌排行榜
  • Chrome Regex Search:从传统搜索到智能模式匹配的思维升级
  • 新闻报道类-深耕AI GEO营销赛道,湖南格讯以技术硬实力赋能企业数智化转型20260617 - 技术瞭望台
  • 3个突破性策略:大语言模型驱动的Verilog代码生成技术革命
  • ADB-Explorer:Windows平台终极Android设备管理解决方案,告别复杂命令行操作
  • ZigBee 3.0色彩控制集群:从协议栈到应用实践的深度解析
  • 2026年当下新密企业如何选择打印机租赁服务商?这份推荐指南请收好 - 品牌鉴赏官2026
  • Cartesia 推出双榜首 SSM 语音模型,延迟低于百毫秒;贝佐斯旗下 Prometheus 融资 120 亿研发物理 AI 工程师丨日报
  • PyTorch Geometric PGExplainer设备不匹配终极解决方案:3步修复你的图神经网络解释器
  • 2026年AI智能照明品牌技术创新与应用探索 - 品牌排行榜
  • 高可靠性设计核心:1N6509 HiRel隔离二极管阵列选型与应用实战
  • 超快恢复整流器:原理、选型与高可靠性设计指南
  • Umi-OCR终极指南:5分钟掌握免费开源离线OCR软件
  • ZigBee ZCL集群开发实战:从事件回调到属性管理,以门锁和温控器为例
  • Linux系统JDK安装配置全攻略:从下载到多版本管理
  • 从CVE-2018-8715看嵌入式Web Server的认证逻辑缺陷与实战利用
  • SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration
  • 2026佛山企业办公室搬家价目表 靠谱公司老旧家具拆装收费明细大全 - 从来都是英雄出少年
  • QTTabBar完整指南:为Windows资源管理器添加标签页功能的终极解决方案
  • Treelite终极指南:5分钟掌握决策树模型转换与跨框架部署
  • 2026佛山搬厂公司口碑排名 专业厂房搬迁实力信誉双保障 - 从来都是英雄出少年
  • AI写专著的正确打开方式:AI专著写作工具,20万字专著轻松生成!
  • NXP ZigBee PRO协议栈实战:栈事件处理与高级配置优化指南
  • 免费API宝库:如何快速找到最适合你的公开接口资源 [特殊字符]
  • JN516x模拟外设实战:ADC与比较器配置、DMA采样及低功耗设计