当前位置：首页 > news >正文

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

news 2026/6/10 19:48:49

第一部分 GR00T N1.61.1 模型和数据改进基础VLM作者使用内部NVIDIA Cosmos-2B VLM变体这里的Cosmos-2B VLM 指的是Cosmos-Reason-2B是 NVIDIA Cosmos Reason 系列中专门面向 Physical AI的 2B 参数视觉语言模型该VLM支持灵活的分辨率并且可以在没有填充的情况下以其原生宽高比编码图像。VLM在一般视觉语言任务和具体化推理任务(如下一个动作预测)上进行训练使用2倍大的DiT (32 layers vs 16 layers in N1.5)移除了N1.5中用于VLM的4层Transformer适配器取而代之的是在预训练期间解冻VLM的最上层4个层级说白了顶部4层解冻不再冻结Removes N1.5s post-VLM 4-layer transformer adapter. Instead, we unfreeze the top 4 layers of the VLM during pretraining————对于这个4-layer transformer adapter有意思的是N1.5 的公开论文/技术博客中并没有明确提到这个 4层 post-VLM transformer adapter而是在 N1.6 发布时才把它作为被移除的旧设计给披露出来预测大多数实施例的状态相关动作块而不是绝对关节角度或EEF位置Predicts state-relative action chunks for most embodiments, rather than absolute joint angles or EEF positions即从绝对关节角度/末端执行器位置 →State-Relative Action Chunks除了N1.5混合数据外N1.6预训练数据还包括数千小时的遥操作数据来自Bimanual YAM armsAGIBot Genie1Simulated Galaxea R1 Pro on the BEHAVIOR suiteWhole-Body Locomanipulation with Unitree G1使用Unitree G1进行全身运动控制// 待更第二部分 GR00T N1.72.1 GR00T N1.7 的新增功能GR00T N1.7 抢先体验版这是 GR00T N1 的最新版本相对末端执行器动作空间——N1.7 采用跨机器人与人类形态共享的相对末端执行器动作空间。将动作表示为相对于当前姿态的增量(而非绝对目标)有助于提升模型的泛化能力是模型在不同形态间表现优异的关键因素————这里是如何为您的机器人配置相对末端执行器动作空间的指南getting_started/finetune_new_embodiment.md人类视频预训练——N1.7 在 2 万小时的 EgoScale 人类视频数据以及多样化的机器人演示数据上进行了预训练由于人类和机器人数据中的相对末端执行器EEF动作表示保持一致该模型能够将从人类视频中学到的操作先验知识直接迁移到机器人控制中——顺带提醒一下这 2 万小时 EgoScale 人类视频主要是用于预训练 Diffusion Transformer(动作专家/动作头)而非 VLM BackboneN1.7相比N1.6 的主要更新内容新的 VLM 主干模型Cosmos-Reason2-2B采用 Qwen3-VL 架构取代了 N1.6 中使用的 Eagle 主干。支持灵活分辨率并以原始宽高比对图像进行编码无需填充简化了数据处理流程processing_gr00t_n1d7.py新增完整的 ONNX 和 TensorRT 导出管道导出频率得到提升2.2 安装与部署准备数据收集机器人演示数据视频、状态、动作并将其转换为GR00T LeRobot格式当然N1.7的库里已包含演示数据集方便快速测试运行推理使用预训练模型在预训练的机器人形态上进行零样本推理或使用微调后的检查点完成基准任务微调通过launch_finetune.py脚本结合你自己的数据和模态配置将模型适配到你的机器人上评估先通过开环评估验证性能然后在仿真基准环境中或通过Policy API在真实硬件上进行测试部署将Gr00tPolicy连接至你的机器人控制器可选地使用TensorRT加速2.3 人形全身控制系统SONICGR00T N1.7 通过 UNITREE_G1_SONIC 本体标签和 GEAR-SONIC 控制器实现全身人形控制。在此工作流程中VLA预测出紧凑的潜在动作token再由学习到的全身控制器将其解码为包含腿部、手臂和手部在内的完整关节指令单一策略即可端到端地生成基于语言条件的协调操作与移动行为。且SONIC 支持全身协同控制并能实现精确的手部和足部定位。完整的收集 → 微调 → 部署工作流程在 GR00T-WholeBodyControl 仓库中有详细记录数据采集 — 使用SONIC进行VR遥操作以录制演示VLA工作流程 — 在采集的数据上微调Isaac-GR00T N1.7模型并部署策略VLA推理 — 运行PolicyServer和SONIC解码器以实现实时控制注意UNITREE_G1的实体标签兼容解耦式WBC控制器但端到端的采集-微调-部署工作流仅支持GEAR-SONICUNITREE_G1_SONIC// 待更

查看全文

http://www.gsyq.cn/news/1406421.html