当前位置：首页 > news >正文

HARBOR：一个面向具身智体机器人强化学习的驾驭框架

news 2026/6/13 1:54:58

26年6月来自德国TU Darmstadt、欧洲本田研究所、哥伦比亚大学、同济大学、上海智能自动系统研究所、德国维尔茨堡大学和 Hessian.AI 的论文“HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning”。

强化学习（RL）已成为机器人学习的强大范式，特别是在“仿真-到-现实”（sim-to-real）的场景中；然而，围绕算法的工程流程限制了其更广泛的应用。构建任务、设计奖励函数以及调整超参数都需要专家投入大量精力，这使得强化学习的工作流成本高昂且难以扩展。HARBOR，是一个智体驱动（agentic）的框架，它将机器人强化学习的自动化过程建模为一种“驾驭工程”（harness-engineering）问题：给定仿真器代码库和任务规范，它能自动完成从环境搭建到仿真中策略训练的全流程。HARBOR 将这些高层目标分解为若干受限阶段，由专用智体通过标准化指令、持久化产物、可执行的门控机制（gates）及可复用知识来执行；同时，它通过去中心化的并行试验和跨运行周期的经验学习来实现迭代扩展。在涵盖操作（manipulation）、运动（locomotion）和双臂灵巧控制（bimanual dexterous control）的 6 个基准测试和总计 16 个任务上对 HARBOR 进行评估。

基于大语言模型（LLM）的智体为自动强化学习（RL）工程流程提供了极具前景的基础，但实现长周期的自主运行不仅需要强大的模型能力。任务失败往往源于执行规范不明确：智体缺乏可靠实现高层目标所需的工具、抽象机制和反馈信息 [18, 19, 20]。驾驭工程（Harness Engineering）通过改变人类的工作模式来解决这一问题：将原本需要人工逐步执行的任务，转变为设计结构化、可由智体读取且具备可验证接口的工作流 [21, 22]。机器人强化学习（Robot RL）特别契合这一理念：马尔可夫决策过程（MDP）[1] 提供稳定的接口（即状态、动作、奖励、动力学和终止条件），而运行轨迹（rollout）、奖励信号和训练曲线则提供了可执行的反馈，使得机器人RL的自动化成为驾驭工程的理想应用场景。

为此，推出了 HARBOR，这是一个专为具备智体特性的机器人强化学习设计的Harness框架。给定仿真代码库和任务规范后，一个中心主智体会将请求分解为若干有限阶段（从依赖环境搭建到策略训练），并指派专用智体负责各个阶段。这些智体调用基于内置模板、脚本和先验经验的标准化指令，且仅在“可执行门控”（executable gates）验证输出无误后才会推进流程，从而防止错误向下游传播。诸如奖励函数和算法参数调优等迭代阶段，以并行试验的形式运行；试验结果被提炼为可复用的经验，供后续智体检索使用，进而提升效率与可靠性。在涵盖操作（manipulation）、运动（locomotion）和双臂灵巧控制（bimanual dexterous control）的6个基准测试和16项任务上对HARBOR进行了评估。结果表明，该框架实现了仿真RL工作流的自动化，通过自主调优达到了与默认配置相当甚至更优的性能，并以合理的代价降低工程投入，同时生成的策略能够成功迁移至真实机器人上运行。

如图 1概述HARBOR：

机器人强化学习（RL）自动化不仅仅是一个代码生成问题，更是一项挑战：即如何构建一个可靠的工作流，使其能够在长时程跨度内进行决策、维护状态并验证进展。机器人强化学习流水线各环节紧密耦合：任务设计影响奖励机制，奖励机制塑造学习过程，而部署阶段的失败往往需要回溯至早期环节。这种耦合既导致了不受约束的智体自动化系统变得脆弱，同时也显露出某种可供自动化框架加以利用的结构特征。
从 MDP 到机器人强化学习（RL）工作流：强化学习通常被形式化为马尔可夫决策过程（MDP）[1, 2]：

M = (S, A, P, r, ρ_0, γ, T)，

其中 S 和 A 分别表示状态空间和动作空间，P 是转移动态，r 是奖励函数，ρ_0 是初始状态分布，γ 是折扣因子，T 规定了终止条件。尽管这种数学表述简洁明了，但它掩盖了在机器人领域实例化 RL 问题所需的工程复杂性。状态空间和动作空间必须与仿真器的观测数据及机器人的控制接口相匹配，而转移动态则由资产（assets）、控制频率和物理参数决定。除了 MDP 本身，完整的机器人 RL 工作流还需要涉及算法集成、配置、日志记录、评估，以及在“仿真-到-现实”（sim-to-real）场景下的部署接口。因此，机器人 RL 不仅仅是在固定 MDP 上的策略优化，还包括 MDP 及其相关流水线（pipeline）的构建、验证和迭代优化。

面向长程智体自动化的驾驭（Harness）：驾驭是指围绕大语言模型（LLM）智体构建的结构化执行环境：它定义智体如何访问工具、保存产出物（artifacts）、观测反馈以及验证进度 [18, 21]。这种结构对于长程自主性至关重要，因为成功的关键既取决于模型的能力，也取决于如何分解、执行和检查开放式目标。因此，驾驭工程将工作重心从手动执行每一步，转移到了设计智体可读的工作流上，这些工作流包含可复用的动作和可执行的验证步骤。

机器人 RL 自动化特别适合采用此类执行框架。其 MDP 形式化定义相对稳定的接口，而仿真器和训练过程则提供了用于检查中间进度的可执行反馈。接口检查可以捕捉无效的重置、观测和动作；诊断状态和短时训练运行可以揭示奖励设置或优化过程中的失败；渲染出的轨迹（rollouts）则能暴露出标量回报值可能掩盖的行为错误。虽然这些检查无法提供绝对保证，但它们为智体验证产出物和从故障中恢复提供了实用的基础。

面向强化学习（RL）的 Harness 抽象：受上述特性的启发，HARBOR 将通用的“智体驾驭”（agentic harness）模式专门应用于机器人 RL 自动化流程，如图 1(2) 所示：

H_RL = (H_A, C, M, G, K)

其中，H_A 代表智体（agents），C 代表指令（commands），M 代表可变工件（mutable artifacts），G 代表可验证门控（verifiable gates），K 代表可复用知识（reusable knowledge）。知识和可变工件为智体提供上下文；智体调用指令来转换工件；门控利用可执行的 RL 证据验证生成的流程状态；最终的成功或失败结果会被总结并归档为知识。从这个意义上说，HARBOR 并不保证最终策略在语义上的正确性。相反，它将许多常见的 RL 工程故障转化为可观测的门控故障，从而在故障向下游传播之前将其拦截。

• 智体（H_A）：是上下文隔离的子进程，被分配到 RL 工作流的特定阶段。每个智体基于该阶段局部的工件和检索到的知识进行操作，执行局部实现，然后向主控制器返回一份简要总结。
• 指令（C）：是向智体公开的可复现操作，范围涵盖从基础调用（如rl-sweep）到复合循环（如tune-reward）的各种操作。同一指令接口可由不同的智体调用，并配合不同的工件与门控使用。
• 可变工件（M）：将工作流状态外部化为持久且可检查的对象。它们充当智体与指令之间的通信载体，减少了对短暂的大语言模型（LLM）上下文的依赖。
• 可验证门控（G）：是用于判定阶段能否推进的可执行检查机制。它们既包括严格的接口检查，也包括较宽松的语义检查（例如导入检查和 rollout 检查）。
• 可复用知识（K）：包括模板、参考资料、脚本、人类启发式经验以及过往运行中积累的经验。它约束生成过程，编码针对特定仿真器和算法的契约（contracts），并允许后续智体利用早期尝试的结果。

HARBOR 将强化学习（RL）框架实例化为一个以“产出物”（artifact）为核心的机器人学习执行图。针对用户请求，HARBOR 将其分解为若干有界阶段。每个阶段由专用智体处理，该智体调用标准化指令生成持久化产出物，并仅在“可执行门控”（executable gates）验证其输出后才推进流程。表 1 总结抽象驾驭元组如何实例化为具体的工作流阶段。

系统概述与设计选择：HARBOR 支持机器人 RL 开发的全生命周期（在仿真环境中），涵盖依赖项设置、任务构建、奖励设计、域随机化、算法集成及超参数调优。用户可指定仿真器、任务、算法、训练预算或调优目标中的任意子集；HARBOR 则根据框架经验和代码库模板推断缺失的选项。随后，它将工作流具体化为可运行代码、配置文件、验证日志、检查点、视频、指标及调优摘要。

HARBOR 采取三项使其区别于通用大语言模型（LLM）编程智体的设计选择。首先，工作流以产出物为核心：持久化文件作为通信载体，记录跨迭代保留的 MDP 状态和调优历史，从而减少对瞬时 LLM 上下文的依赖。其次，门控机制在阶段粒度上运行，利用 RL 的可执行信号来验证每个阶段。第三，执行过程在规划层面集中化，但在实际执行层面去中心化，这允许在不导致主智体上下文膨胀的情况下并行进行 RL 调优试验，从而提高时间效率。

门控检查执行协议：HARBOR 采用统一协议执行每个阶段。主智体检索相关知识和当前产出物，派生出一个具有有限上下文的阶段专用智体，并指示其通过标准化指令编辑或创建产出物。指令输出随后由门控机制评估。若通过门控，HARBOR 将提交产出物，并将日志、指标、视频、决策及失败摘要写入可重用知识库。若未通过门控，HARBOR 将失败摘要（包括未通过的检查项、错误信息及观测值）反馈给阶段智体进行修复；若耗尽预设的重试次数后仍未成功，该阶段将被标记为未解决，并由主智体请求用户介入。

例如，任务生成器（task-generator）将 MDP 分解为有序的子阶段，包括场景构建、初始化与终止条件设定，以及动作与观测空间设计。在生成下一个组件之前，每个子阶段都会设置相应的“门控”（gates）检查点。以末端执行器位姿增量控制器为例，其动作门控机制会检查随机动作是否生成预期的目标位姿指令，并核实指令目标位姿与实际位姿是否匹配，从而揭示控制器、动力学模型或逆运动学计算中存在的错误。这些保守的检查虽不能证明语义层面的正确性，但能验证局部接口行为，并防止底层任务错误蔓延至后续阶段。

基于经验学习的并行调优：奖励函数设计、域随机化和算法调优通常涉及迭代过程，需要尝试多种方案、分析失败原因，并据此决定下一步的调整。HARBOR 采用“集中控制、分布执行”的模式来支持这一过程（图 2 以奖励设计为例展示了该模式）。主智体（main agent）维护调优历史记录（包含各项拟议修改及其结果），并调度多个并行子智能体，每个子智体在独立的试验目录下运行。完整的运行过程视频、奖励函数代码和日志均保存在各自目录下，从而支持试验异步运行、避免覆盖共享产出物，并便于在计算集群上进行调度。试验结束后，HARBOR 会汇总并分析结果，进而决定下一步采取何种干预措施。

这些运行记录同时也构成经验学习的基础。主智体不会将每次试验视为孤立的一次性过程，而是在每轮调优后，从多次试验中提炼出重复出现的模式（如有效的奖励项、不稳定的参数范围或常见的失败模式），并将其总结为简明的要点。在开启新一轮调优前，HARBOR 会根据模拟器、任务或算法标签，检索与当前项目阶段相匹配的经验信息。当整个阶段结束后，这些总结出的要点会被存入 HARBOR 的经验库中，供后续智体复用成功模式并规避已知的失败模式。

插件接口与可控性：HARBOR 被封装为大语言模型（LLM）智体插件，其指令、产出物和检查点（gates）均采用结构化自然语言而非晦涩的代码编写。这使得用户能够清晰了解每个阶段的功能及检查点的校验逻辑，并能通过编辑这些定义来自定义工作流。由于每个阶段都会在检查点处暂停并保存持久化产出物，用户可以审计输出结果、介入修正特定阶段，并从上一个通过检查点的状态恢复运行。此外，用户还可以直接调用单个智体或指令，以构建自定义的工作流程。

自动化端到端仿真流水线：首先评估 HARBOR 能否在不同仿真器和任务中实现机器人强化学习（RL）工作流的自动化。选择 IsaacLab、ManiSkill、Genesis 和 MJLab 这四个仿真平台，并在每个平台上实现四种操作任务：方块堆叠（stack-cube）、抽屉插入（insert-drawer）、箱体提举（lift-box）和灵巧抓取（dex-grasping）。这些任务涵盖长时程组合、铰接体交互、双臂协同以及灵巧控制等多种场景。给定包含场景资产、成功指标和预期行为的任务规范，HARBOR 能够自动完成依赖项配置、任务实现、奖励函数生成、RL 集成及策略训练。如图 3 所示，尽管各仿真器在 API、资产格式和接触接口方面存在差异，HARBOR 仍能生成语义一致的任务实例。

真实世界验证：利用在不同仿真器中训练出的策略，在真实机器人上针对全部四项任务验证“仿真-到-现实”（sim-to-real）的迁移效果。HARBOR 通过系统辨识（system identification）和域随机化（domain randomization）技术支持这种迁移：它利用用户提供的真实世界轨迹，搜索出最能匹配真实运行结果的仿真物理参数，并根据人类反馈调整物体质量和初始位姿等随机化范围。

查看全文

http://www.gsyq.cn/news/1514138.html