当前位置：首页 > news >正文

Dexterity-BEV：跨本体跨相机Action三维空间对齐，推动通用机器人策略学习

news 2026/6/12 1:00:15

**论文标题：**Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

机器人操作视觉-语言-动作模型三维空间对齐鸟瞰图表示跨具身泛化

在机器人操作领域，端到端策略结合大规模预训练的视觉-语言模型正展现出前所未有的泛化潜力。然而，现有方法大多依赖二维图像输入，忽略了机器人操作本质上是一个三维空间交互过程。DexForce Technology与香港中文大学（深圳）联合研究团队提出的Dexterity-BEV框架，通过引入对齐的顶点图与顶点谱表示、构建规范化的鸟瞰图对齐坐标系，以及建立全面的时空数据对齐处理流程，为视觉-语言-动作模型注入了显式的三维空间感知能力，在仿真环境和四种真实机器人平台上均取得了显著的性能提升。

一、从二维感知到三维操作：机器人策略学习的新维度

近年来，随着大规模语言模型和视觉-语言模型在网页级数据上展现出强大的零样本泛化能力，研究社区正积极探索将这些能力迁移到机器人领域。视觉-语言-动作模型（Vision-Language-Action Models，简称VLA）以及在此基础上发展出的世界-动作模型（World-Action Models，简称WAM）已成为机器人策略学习的重要范式。这类模型通常以二维RGB图像作为视觉输入，结合自然语言指令，直接输出机器人关节角度或末端执行器位姿，实现从感知到动作的端到端映射。

然而，这种基于二维输入的范式在实际部署中面临两个根本性挑战。第一，机器人操作本质上是一个三维空间中的物理交互过程，单纯依赖二维RGB图像难以充分捕捉场景中物体的空间几何关系、深度层次和遮挡结构。第二，现有方法的输出空间缺乏有效的空间对齐机制：不同机器人类型的关节角度表示差异巨大，末端执行器位姿的坐标系约定因平台而异，加之不同数据集的相机标定参数、场景布局和机器人基座位置各不相同，导致策略模型需要额外克服大量与任务本质无关的分布差异。

针对上述问题，Dexterity-BEV研究团队提出了一套系统性的技术方案，核心思想是将三维世界感知与动作输出空间统一对齐到一个共享的规范化坐标系中。该框架不仅引入了像素级的三维输入表示，还创新性地采用鸟瞰图（Bird’s-Eye-View，BEV）作为对齐参考帧，同时建立了跨数据集、跨机器人平台、跨操作者的时空数据对齐处理流程，为多视角观测、异构机器人本体和多样化轨迹数据提供了统一的表征基础。

图1：Dexterity-BEV整体框架示意图。该框架通过三维输入表示提升、多视角与动作空间对齐、以及轨迹时序对齐，实现了跨本体、跨相机视角和跨数据集的泛化能力。

二、对齐顶点图与顶点谱：为二维视觉模型注入三维感知

为了让预训练在二维图像数据上的视觉-语言模型能够处理三维空间信息，研究团队设计了一种名为对齐顶点图（Aligned Vertex Map）的输入表示。具体而言，对于每一帧来自第i个相机的RGB图像，结合相机内参矩阵和深度图，可以将每个像素反向投影到三维空间，生成该相机视角下的顶点图。这种表示保留了二维图像的像素结构，使得现有的二维视觉编码器可以直接处理，同时每个像素位置都携带了对应的三维空间坐标信息。

然而，单独为每个相机视角生成顶点图并不能解决多视角之间的几何一致性问题。同一个物理三维点在不同相机视角下会呈现截然不同的局部坐标值，这取决于各相机的外参矩阵。为此，研究团队提出将所有相机视角的顶点图变换到一个共享的参考坐标系中。通过利用相机外参参数，将每个相机帧下的顶点图变换到统一的对齐坐标系，生成的对齐顶点图在保持像素级结构的同时，实现了全局空间一致性。这意味着，无论机器人头部相机还是腕部相机捕捉到的同一个物体表面点，在经过变换后都会映射到相同的三维坐标值。

在实际部署中，并非所有机器人平台都配备深度传感器。为了兼容仅有RGB输入的相机，研究团队进一步提出了顶点谱（Vertex Spectrum）机制。该方法借鉴了自动驾驶领域中多视角三维感知的技术思路，为每个像素采样一组离散深度假设，通过线性递增离散化策略覆盖操作空间内的深度范围。每个像素-深度组合被反向投影并变换到对齐坐标系中，形成体积化的坐标网格，再经由轻量级编码器处理为二维位置嵌入，与对应的RGB特征进行逐元素相加。这种设计使得即使在没有深度传感器的情况下，模型仍然能够感知到粗略的三维空间结构。

三、鸟瞰图对齐坐标系：构建视角无关的表征空间

在实现对齐顶点图的基础上，研究团队进一步指定了一个规范化的鸟瞰图（BEV）对齐帧作为统一的参考坐标系。该坐标系的选择遵循机器人操作场景的物理结构：对于桌面操作任务，BEV帧的原点通常设定为工作空间三维立方体区域的底部中心；对于移动机器人平台，则可以直接采用机器人基座坐标系。这一设计使得来自不同相机视角、不同机器人本体和不同数据集的观测与动作都可以被表达在同一套空间语言中。

基于BEV帧，研究团队创新性地构建了BEV图像。该图像通过对所有相机视角的彩色点云进行聚合，然后执行自上而下的正交投影生成。在投影过程中，系统同时计算一个与RGB BEV图像像素对齐的高度图，该高度图进一步被转换为在BEV坐标系下表达的顶点图，作为额外的输入通道送入策略网络。图2展示了这一机制的关键特性：即使两个相机视角差异极大，生成的BEV图像中物体的像素位置几乎保持一致，从而为策略学习提供了视角无关的几何输入空间。

图2：Dexterity-BEV网络架构与BEV图像构建机制。（a）展示了不同相机位姿下生成的BEV图像具有高度一致性；（b）展示了整体网络架构，包括多视角输入、BEV图像合成、三维编码器、预训练VLM骨干和流匹配动作专家。

在动作输出端，研究团队将机器人本体感知信息和目标动作统一参数化为在BEV坐标系下的SE(3)位姿。这种表达方式不依赖于特定机器人的关节结构，而是直接描述末端执行器在共享三维空间中的位置和朝向。无论是灵巧手、平行夹爪还是人形机器人的双臂，其动作都可以被映射到同一套空间坐标系中进行学习和预测。这种输入-输出的三维空间对齐显著降低了策略模型需要克服的跨本体分布差异。

四、时空数据对齐处理流程：打通异构数据的壁垒

为了让上述表示方法能够在真实的大规模异构数据集上训练，研究团队开发了一套全面的数据对齐处理流程。该流程涵盖三维空间对齐和时序对齐两个维度，支持内部数据集和多种公开数据集的统一处理。

在三维空间对齐方面，针对每个数据集，研究团队将相机内参和外参统一转换为标准的OpenCV格式。对于缺乏深度测量的轨迹，通过动作回放生成仿真深度图，或利用视觉基础模型合成深度图像。高质量的机器人URDF模型被注册到共享的三维观测空间中，并强制执行统一的工具中心点（TCP）坐标系约定：平行夹爪的TCP统一锚定在夹爪尖端，多指灵巧手配置则锚定在腕部。通过这些标准化的运动学链，所有平台的末端执行器绝对SE(3)位姿都可以通过正向运动学计算得到。

图3：三维空间对齐数据流程可视化。展示了LIBERO、AgibotAlpha/Beta、RoboTwin 2.0、RoboMind 2.0以及内部数据集的对齐效果，所有数据被统一到一个共享的三维观测空间中。

在时序对齐方面，研究团队观察到大多数操作任务可以视为准静态过程：在一定范围内加速或减速的轨迹仍然能够完成任务。基于此，他们提出将末端执行器的平移和旋转速度归一化到标准值。对于给定的轨迹段，系统计算每个时间步的平移位移和旋转位移，根据预定义的标准线速度和角速度重新计算归一化时间间隔。对于多臂机器人，取两臂中的最大时间间隔作为统一标准。对于几乎静止的帧，系统会根据其与操作任务的相关性选择保留原始时长或直接丢弃。训练时通过三次样条插值获得对齐后的动作序列。

这一时序对齐方案有效消除了由于机器人硬件差异和人类遥操作速度不同带来的伪运动噪声。通过统一动作块长度和均匀分布轨迹节点，不同机器人平台和不同操作者采集的轨迹数据可以在同一时序尺度上进行学习和比较。

五、仿真基准测试：跨本体与跨视角的泛化验证

研究团队在LIBERO和RoboTwin 2.0两个仿真基准上进行了系统评估，重点验证了Dexterity-BEV在跨本体泛化和视角鲁棒性方面的优势。

在官方标准设置下，Dexterity-BEV使用单一网络权重同时评估于两种截然不同的机器人平台：LIBERO中的单臂7自由度Franka机器人和RoboTwin 2.0中的双臂12自由度Agilex机器人。实验结果显示，Dexterity-BEV在LIBERO上取得了与当前主流方法相当的成功率，在RoboTwin 2.0上则达到了更高的性能水平。特别值得注意的是，一个移除了所有三维输入且禁用三维对齐的二维消融版本（2D Ablation）出现了显著的性能下降，这直接验证了所提出的三维输入和对齐机制的有效性。

表1：仿真基准测试结果与跨本体泛化性能对比。Dexterity-BEV使用单一权重在LIBERO和RoboTwin 2.0上均取得了优异表现，展现了跨不同机器人平台的强大泛化能力。

为了进一步检验对相机视角变化的鲁棒性，研究团队设计了一套修改版的LIBERO评估协议。在每一回合开始时，第三人称相机位姿被随机扰动：围绕世界z轴、光轴和倾斜角度进行随机旋转，旋转范围分别达到140度、60度和60度；相机到场景中心的距离在1米范围内随机变化。同时，机器人基座和场景基座（包括工作台和物体）施加10厘米的平移扰动和5度的旋转扰动。在这种强扰动条件下，使用官方设置训练的X-VLA模型和二维消融版本的成功率几乎降至零，而Dexterity-BEV仍然保持了接近90%的平均成功率。

表2：修改版LIBERO基准测试结果，评估对相机视角和机器人/场景基座位姿变化的泛化能力。Dexterity-BEV在强扰动条件下仍保持合理成功率。

训练动态分析进一步揭示了三维对齐机制的优势。图4展示了Dexterity-BEV与二维消融版本的训练损失曲线对比。二维基线难以充分吸收训练数据中的位姿变化，导致损失下降缓慢且波动较大；而Dexterity-BEV凭借对齐的三维输入和视角不变的BEV表示，能够更快收敛到更低的损失水平。

图4：训练损失曲线对比。Dexterity-BEV（蓝色）相比二维消融版本（橙色）展现出更快的收敛速度和更低的最终损失。

六、真实世界部署：四种平台与五项复杂长程任务

为了验证框架在实际物理环境中的实用性和鲁棒性，研究团队在四种不同的双臂硬件平台上部署了Dexterity-BEV，涵盖五项涉及复杂双臂协调和多样化物体交互的长程操作任务。这些平台包括：配备平行夹爪的Agilex双臂机器人、配备BrainCo Revo-2灵巧双手的DexForce W1轮式人形机器人、配备平行夹爪的DexForce W1轮式人形机器人，以及配备平行夹爪的DexForce A1半人形机器人。

图5：四种真实机器人硬件平台与遥操作数据采集界面。（a）Agilex双臂平台；（b）DexForce W1灵巧手平台；（c）DexForce W1夹爪平台；（d）DexForce A1半人形平台。遥操作方式包括主从跟随和基于VR的沉浸式操作。

五项评估任务分别是：在Agilex平台上执行的折叠快递盒（Fold Mailer Box）和折叠布料（Fold Cloth），在W1灵巧手平台上执行的舀取爆米花（Scoop Popcorn），在W1夹爪平台上执行的递书（Handover Book），以及在A1平台上执行的折叠布料（Fold Cloth）。这些任务涉及可变形物体、铰接物体、颗粒材料和动态人机交互，对策略的空间推理能力和闭环反应性提出了极高要求。

图6：五项真实世界长程复杂任务的关键帧展示。从左至右依次为：折叠快递盒、折叠布料、舀取爆米花、递书、折叠布料（A1平台）。

定量结果显示，Dexterity-BEV在所有五项任务上均取得了显著优于基线方法的成功率。在折叠快递盒任务中，Dexterity-BEV达到76.7%的成功率，相比π0的43.3%和X-VLA的56.7%有大幅提升。在折叠布料任务中，Dexterity-BEV在Agilex平台上达到93.3%，在A1平台上更是达到96.7%。舀取爆米花和递书任务的成功率分别达到86.7%和93.3%。

表3：真实世界实验定量对比结果（30次试验的平均成功率）。Dexterity-BEV在四项不同硬件平台上的五项复杂任务中均取得了领先表现。

七、零样本泛化与动态鲁棒性：超越训练分布的适应能力

除了标准评估外，研究团队还设计了一系列超出训练分布的测试场景，以检验Dexterity-BEV的泛化边界和闭环反应能力。

在折叠快递盒任务中，训练时的演示数据仅包含固定朝向的标准盒子。在分布外测试中，盒子被以未见过的姿态和极端偏航角放置。Dexterity-BEV利用闭环视觉伺服能力，自主执行预操作重定向步骤，将盒子对齐后再启动折叠序列。即使盒子在执行过程中发生滑动，策略也能够从异常状态中自主恢复，无需人工干预。研究团队还展示了该策略的连续多周期操作能力：在完成一个盒子的折叠后，双臂自动返回初始位姿，新的盒子被立即引入，系统可靠地执行了连续多轮无间断折叠。

图7：Agilex双臂平台配置与任务执行时序。左侧展示了平台硬件配置，右侧展示了折叠快递盒和折叠布料两项长程任务的自主执行关键帧。

图8：分布外盒子折叠测试。三种未见过的初始朝向（New Orientation 1/2/3）均能被策略成功处理，展示了强大的姿态不变性和自恢复能力。

在折叠布料任务中，模型仅在白色XL/XXL T恤上进行了训练。在分布外测试中，系统被用于折叠米色小号衬衫、浅绿色XXL衬衫和灰色XXL衬衫。实验验证了模型能够零样本泛化到不同颜色、几何尺寸和材质刚度的衣物上，无需任何额外的微调或适配。

图9：分布外布料折叠零样本泛化。训练仅使用白色T恤，测试时成功处理米色、浅绿色和灰色等不同颜色与尺寸的衣物。

在舀取爆米花任务中，研究团队引入了主动的人类干扰作为对抗性测试。在机器人执行预抓取接近阶段时，多名操作者动态且反复地移动目标纸杯的位置。Dexterity-BEV能够实时感知杯子的位移，平滑地收回手臂，重新计算空间轨迹，并成功完成抓取。这种对未建模工作空间干扰的抵抗能力，凸显了统一三维BEV观测表示所带来的闭环鲁棒性。

图10：DexForce W1人形平台与舀取爆米花任务执行。该任务要求精细的双臂协调，涉及工具使用、高自由度灵巧手操作和颗粒材料估计。

图11：动态干扰鲁棒性测试。两名不同用户在机器人预抓取阶段随机移动目标杯子，Dexterity-BEV成功重新校准运动轨迹并完成抓取。

在递书任务中，策略展示了多模态交互能力和语义敏感性。根据用户指定的颜色指令（如"递给我棕色的书"或"递给我蓝色的书"），策略能够准确识别并抓取目标书籍。在抓取阶段，操作者主动移动和旋转底层书架，机械臂实时重新计算相对轨迹以完成抓取。当物体被抬起并移向用户时，策略持续跟踪用户手部位置，直到感知到稳固的物理接触和稳定接收，才打开夹爪并安全返回初始位姿。

图12：多模态交互式递书任务。Dexterity-BEV能够根据颜色语义指令选择目标书籍，并在动态书架移动和人类手部跟踪中实现精确交互。

在A1半人形平台上的折叠布料任务进一步展示了不同本体形态对策略行为特征的影响。由于A1平台的拟人化肩部构型和更大的工作空间高度，其生成的手臂轨迹相比桌面式的Agilex臂更具类人特征，能够更精确地提升、展平和对齐布料层，产生更平整、无褶皱的折叠效果。这一观察揭示了数据多样性和本体运动学对下游策略行为风格的深刻影响。

图13：DexForce A1半人形平台上的布料折叠任务。展示了策略处理不同初始状态（平整或揉皱）的能力，以及双臂协调执行复杂布料操作的轨迹。

八、技术贡献总结与未来展望

Dexterity-BEV框架的核心贡献可以概括为三个层面。在表示层面，对齐顶点图和顶点谱机制将像素级的三维空间信息注入到二维视觉-语言模型中，既保留了对预训练模型的兼容性，又赋予了三维空间感知能力。在对齐层面，BEV坐标系的引入和BEV图像的构建，为多视角观测、机器人本体感知和动作输出提供了一个视角无关、本体无关的共享空间。在数据层面，系统性的时空对齐处理流程打通了异构数据集之间的壁垒，使得来自不同机器人、不同操作者和不同采集环境的轨迹数据可以在统一框架下进行联合训练。

核心技术创新点

对齐顶点图与顶点谱：
利用相机标定和可选深度信息，将二维视觉输入提升到三维，同时兼容无深度传感器配置
BEV对齐坐标系：
指定规范化的鸟瞰图参考帧，构建视角不变的BEV图像表示
时空数据对齐：
实现跨机器人、跨操作者和跨数据集的三维空间标准化与时序归一化
统一动作表示：
将本体感知和动作输出统一表达为BEV坐标系下的SE(3)位姿

从实验结果来看，Dexterity-BEV在仿真环境中展现了强大的跨本体泛化能力和对相机视角变化的鲁棒性；在真实世界中，四种不同硬件平台上的五项复杂长程任务均取得了领先的成功率，并在分布外泛化、动态干扰恢复和语义交互等方面展示了令人印象深刻的闭环反应能力。

展望未来，研究团队指出了几个值得深入探索的方向。在算法层面，将Dexterity-BEV扩展为生成式的三维世界-动作模型，使其能够同时预测未来三维BEV状态点云和动作序列，有望进一步提升策略的前瞻性和自校正能力。在数据基础设施层面，结合快速发展的三维视觉基础模型，实现大规模机器人操作数据集和第一人称人类演示视频的自动三维标注，将显著降低高质量对齐数据的生成成本。在硬件层面，解锁移动平台的完整轮足运动能力，将框架从桌面操作扩展到房间尺度的移动操作；同时引入力触觉和听觉反馈等多模态感知，有望解决视觉遮挡下的精细操作难题，建立真正鲁棒的多模态具身智能接口。

具身智能&世界模型blog： https://jinxindeep.github.io/blog/blog2026.html

查看全文

http://www.gsyq.cn/news/1507325.html