当前位置：首页 > news >正文

【论文阅读】Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist

news 2026/5/25 14:22:16

快速了解部分基础信息题目: Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist Robot Policies时间: 2026.05机构: Shanghai Innovation Institute, AGIBOT Finch, Columbia University3个英文关键词: Generalist Robot, Offline-to-Online RL, VLA1句话通俗总结通过让机器人大军在实际干活时边干边学Online RL用分布式的强化学习算法把预训练好的通用机器人模型VLA从“理论派”变成“实战派”解决了离线数据无法覆盖真实世界复杂情况的痛点。研究痛点纯离线预训练Offline Pretraining搞不定真实世界的“长尾分布”和“突发状况”模型部署后遇到没见过的场景就会抓瞎现有方法无法高效利用部署后的实时交互数据进行自我进化。核心方法搞了一套“离线预训练在线微调”的闭环流水线LWD核心是用分布式的值函数学习DIVL处理车队杂乱数据再用QAM算法把改进信号注入到VLA模型里。深入了解部分作者核心主张部署不应该只是模型的“终点考试”而应该是模型“持续进修”的源头利用车队Fleet的规模效应能把稀疏的现实世界经验变成模型能力的飞轮。创新本质相比SOTA真正新在应用场景与训练策略的结合首次在真实世界的多任务通用机器人Generalist VLA上实现了大规模的离线到在线强化学习闭环且算法层面适配了VLA的流匹配Flow Matching架构。方法直觉解释输入预训练好的VLA模型车队实时跑出来的杂乱数据含成功、失败、人类干预。处理先用DIVL算法把这些乱七八糟的数据变成“价值地图”分布式的值函数再用QAM算法像“导航纠偏”一样通过伴随匹配Adjoint Matching告诉VLA模型下一步怎么生成动作更好。输出一个越用越聪明、能处理长周期复杂任务如泡茶、理货的通用机器人策略。关键实现细节DIVL (Distributional Implicit Value Learning)不用单一数值代表状态价值而是用分布Categorical Distribution来保留数据中的多模态信息比如某些动作在特定情况下能成功并根据不确定性自适应调整乐观程度Adaptiveτ \tauτ。QAM (Q-learning with Adjoint Matching)不直接反向传播Q值梯度那样太贵且不稳定而是将其转化为对流模型Flow Policy的局部回归目标实现了对VLA生成过程的精准微调。技术传承继承了IQL (Implicit Q-Learning)的隐式策略改进思想和Flow Matching的生成式建模架构改进了IQL的标量值估计为分布式的Distributional并将QAM算法从模拟环境迁移到了真实世界的VLA模型训练中。实验验证只列最关键的2-3个exp1:多任务真实机器人性能对比设置: 16台双臂机器人8个真实世界任务包括4个长周期任务如功夫茶、果汁制作。数据: 真实物理环境对比SFT, RECAP, HG-DAgger等基线。结论: LWD (Online) 平均得分达到0.95尤其在长周期任务上大幅领先0.91 vs SFT的0.68且循环时间缩短了23.75秒。exp2:消融实验Ablation Study设置: 对比DIVL与标量Expectile回归对比自适应τ \tauτ策略与固定τ \tauτ。数据: 离线与在线阶段的消融。结论: 分布式值学习DIVL在长周期任务上带来了显著提升16.7%证明了处理异构数据分布的重要性。同类工作对比RECAP (2025): 同样是迭代式离线RL但RECAP主要依赖优势权重筛选数据且未实现真正的在线部署闭环LWD直接利用在线交互和人类干预数据通过DIVL处理异构数据更鲁棒。HG-DAgger (2019): 依赖人类专家不断提供演示修正Imitation LearningLWD利用RL直接从结果Reward优化能探索更广的状态空间且不完全依赖人类标定动作。SOP (2026): SOP提供了可扩展的在线微调系统架构LWD在此基础上提供了具体的RL算法内核DIVLQAM解决了SOP中未详细涉及的长周期稀疏奖励问题。强相关文献3篇π₀: A vision-language-action flow model for general robot control (2024)Implicit Q-Learning (2021)Q-learning with Adjoint Matching (2026)局限与适用边界作者承认的limitation当前在线学习调度策略较简单Real-time schedule未针对超大规模部署优化复杂长周期任务依赖单一高层指令缺乏细粒度的视觉语言推理分解安全性机制未显式建模。你判断的适用场景适合拥有机器人车队Fleet的规模化部署场景如仓储物流、零售理货、家庭服务用于解决长周期、稀疏奖励的通用任务不适用于单机、无云端协同、或对安全性要求极高且无法容忍试错的场景。我的大规模的RL训练VLA。RL上面有一点创新部分原理没太看懂。

查看全文

http://www.gsyq.cn/news/1379740.html