当前位置: 首页 > news >正文

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

第一部分 GR00T N1.61.1 模型和数据改进基础VLM作者使用内部NVIDIA Cosmos-2B VLM变体这里的Cosmos-2B VLM 指的是Cosmos-Reason-2B是 NVIDIA Cosmos Reason 系列中专门面向 Physical AI的 2B 参数视觉语言模型该VLM支持灵活的分辨率并且可以在没有填充的情况下以其原生宽高比编码图像。VLM在一般视觉语言任务和具体化推理任务(如下一个动作预测)上进行训练使用2倍大的DiT (32 layers vs 16 layers in N1.5)移除了N1.5中用于VLM的4层Transformer适配器取而代之的是在预训练期间解冻VLM的最上层4个层级说白了顶部4层解冻不再冻结Removes N1.5s post-VLM 4-layer transformer adapter. Instead, we unfreeze the top 4 layers of the VLM during pretraining————对于这个4-layer transformer adapter有意思的是N1.5 的公开论文/技术博客中并没有明确提到这个 4层 post-VLM transformer adapter而是在 N1.6 发布时才把它作为被移除的旧设计给披露出来预测大多数实施例的状态相关动作块而不是绝对关节角度或EEF位置Predicts state-relative action chunks for most embodiments, rather than absolute joint angles or EEF positions即从绝对关节角度/末端执行器位置 →State-Relative Action Chunks除了N1.5混合数据外N1.6预训练数据还包括数千小时的遥操作数据来自Bimanual YAM armsAGIBot Genie1Simulated Galaxea R1 Pro on the BEHAVIOR suiteWhole-Body Locomanipulation with Unitree G1使用Unitree G1进行全身运动控制// 待更第二部分 GR00T N1.72.1 GR00T N1.7 的新增功能GR00T N1.7 抢先体验版这是 GR00T N1 的最新版本相对末端执行器动作空间——N1.7 采用跨机器人与人类形态共享的相对末端执行器动作空间。将动作表示为相对于当前姿态的增量(而非绝对目标)有助于提升模型的泛化能力是模型在不同形态间表现优异的关键因素————这里是如何为您的机器人配置相对末端执行器动作空间的指南getting_started/finetune_new_embodiment.md人类视频预训练——N1.7 在 2 万小时的 EgoScale 人类视频数据以及多样化的机器人演示数据上进行了预训练由于人类和机器人数据中的相对末端执行器EEF动作表示保持一致该模型能够将从人类视频中学到的操作先验知识直接迁移到机器人控制中——顺带提醒一下这 2 万小时 EgoScale 人类视频主要是用于预训练 Diffusion Transformer(动作专家/动作头)而非 VLM BackboneN1.7相比N1.6 的主要更新内容新的 VLM 主干模型Cosmos-Reason2-2B采用 Qwen3-VL 架构取代了 N1.6 中使用的 Eagle 主干。支持灵活分辨率并以原始宽高比对图像进行编码无需填充简化了数据处理流程processing_gr00t_n1d7.py新增完整的 ONNX 和 TensorRT 导出管道导出频率得到提升2.2 安装与部署准备数据收集机器人演示数据视频、状态、动作并将其转换为GR00T LeRobot格式当然N1.7的库里已包含演示数据集方便快速测试运行推理使用预训练模型在预训练的机器人形态上进行零样本推理或使用微调后的检查点完成基准任务微调通过launch_finetune.py脚本结合你自己的数据和模态配置将模型适配到你的机器人上评估先通过开环评估验证性能然后在仿真基准环境中或通过Policy API在真实硬件上进行测试部署将Gr00tPolicy连接至你的机器人控制器可选地使用TensorRT加速2.3 人形全身控制系统SONICGR00T N1.7 通过 UNITREE_G1_SONIC 本体标签和 GEAR-SONIC 控制器实现全身人形控制。在此工作流程中VLA预测出紧凑的潜在动作token再由学习到的全身控制器将其解码为包含腿部、手臂和手部在内的完整关节指令单一策略即可端到端地生成基于语言条件的协调操作与移动行为。且SONIC 支持全身协同控制并能实现精确的手部和足部定位。完整的收集 → 微调 → 部署工作流程在 GR00T-WholeBodyControl 仓库中有详细记录数据采集 — 使用SONIC进行VR遥操作以录制演示VLA工作流程 — 在采集的数据上微调Isaac-GR00T N1.7模型并部署策略VLA推理 — 运行PolicyServer和SONIC解码器以实现实时控制注意UNITREE_G1的实体标签兼容解耦式WBC控制器但端到端的采集-微调-部署工作流仅支持GEAR-SONICUNITREE_G1_SONIC// 待更
http://www.gsyq.cn/news/1406421.html

相关文章:

  • 5步搞定无人机影像处理:WebODM完整安装指南
  • 10分钟精通:猫抓浏览器资源嗅探工具完全指南
  • 从氛围感到硬实力:程序员面试准备的核心陷阱与实战清单
  • 告别手动拷贝!用VS2019 Installer Projects插件,一键打包C# Winform程序和MySQL数据库
  • MathLive:网页数学公式编辑的革命性解决方案
  • 想定制卫浴行业批零兼营跨境营销站该选谁? WaiMaoYa 外贸鸭提供一站式建站服务 - 外贸独立站运营
  • 找工厂客户用什么软件最好?2026 工业品获客工具盘点
  • Pixelle-Video:AI全自动短视频引擎,让视频创作像聊天一样简单
  • 深度解析CookieCloud:端对端加密的分布式会话同步架构设计
  • 避坑指南:CANopen主从站PDO映射配置,为什么你的数据总对不上?
  • SQL Server日期函数避坑指南:DATEDIFF结果为什么和你想的不一样?
  • 告别安装报错!手把手教你搞定INCA 7.2软件、ES582驱动及License配置(附百度网盘资源)
  • CH32V307开发板初体验:除了点灯,我们还能用这块RISC-V MCU做什么?
  • Taotoken用量看板如何帮助开发者精确定位高消耗接口
  • 财务BP速成必读:用ChatGPT搭建动态预测模型,3步完成季度滚动预测,附可审计的提示词工程白皮书
  • 对比直接使用官方api在taotoken上调用模型的便捷性体验
  • 基于MCP协议为AI智能体构建文件风险感知系统
  • 第08篇|Index.ets 状态地图:200 多个状态如何支撑四个主入口
  • 开源Agent OS:构建可治理的多智能体协同系统
  • DCT快速数字水印:兼顾实时性与鲁棒性的工程实践
  • 基于Grover搜索的无惩罚量子Benders分解算法:原理、实现与NISQ可行性分析
  • 高速跳频信号检测:自适应阈值滑动窗口算法在数字信道化接收机中的应用
  • 想改版工艺品行业全场景适配 B2B/B2C/DTC海外官网哪家靠谱? WaiMaoYa 外贸鸭专注行业出海建站 - 外贸独立站运营
  • 非理想RIS辅助OSTBC系统性能分析与优化:从理论建模到低复杂度算法
  • 2026年毛绒玩具卡通人物款哪个好:五家优选品牌解析 - 科技焦点
  • ChatGPT用户手册不是说明书,而是责任契约:基于《人工智能伦理治理指南》的13项法律留痕设计(含司法存证接口配置教程)
  • TSGLP算法:融合时空信息的工业多模态过程监控方法
  • 告别反复搜索!用夜神模拟器Android 9搭建Magisk+LSPosed环境保姆级实录
  • 包装机厂家选型全维度技术指南:避坑与匹配逻辑 - 奔跑123
  • 仅限内部技术团队流通:ChatGPT角色扮演安全边界白皮书(含GDPR/等保2.0双合规校验表)