当前位置: 首页 > news >正文

【论文阅读】Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist

快速了解部分基础信息题目: Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist Robot Policies时间: 2026.05机构: Shanghai Innovation Institute, AGIBOT Finch, Columbia University3个英文关键词: Generalist Robot, Offline-to-Online RL, VLA1句话通俗总结通过让机器人大军在实际干活时边干边学Online RL用分布式的强化学习算法把预训练好的通用机器人模型VLA从“理论派”变成“实战派”解决了离线数据无法覆盖真实世界复杂情况的痛点。研究痛点纯离线预训练Offline Pretraining搞不定真实世界的“长尾分布”和“突发状况”模型部署后遇到没见过的场景就会抓瞎现有方法无法高效利用部署后的实时交互数据进行自我进化。核心方法搞了一套“离线预训练在线微调”的闭环流水线LWD核心是用分布式的值函数学习DIVL处理车队杂乱数据再用QAM算法把改进信号注入到VLA模型里。深入了解部分作者核心主张部署不应该只是模型的“终点考试”而应该是模型“持续进修”的源头利用车队Fleet的规模效应能把稀疏的现实世界经验变成模型能力的飞轮。创新本质相比SOTA真正新在应用场景与训练策略的结合首次在真实世界的多任务通用机器人Generalist VLA上实现了大规模的离线到在线强化学习闭环且算法层面适配了VLA的流匹配Flow Matching架构。方法直觉解释输入预训练好的VLA模型 车队实时跑出来的杂乱数据含成功、失败、人类干预。处理先用DIVL算法把这些乱七八糟的数据变成“价值地图”分布式的值函数再用QAM算法像“导航纠偏”一样通过伴随匹配Adjoint Matching告诉VLA模型下一步怎么生成动作更好。输出一个越用越聪明、能处理长周期复杂任务如泡茶、理货的通用机器人策略。关键实现细节DIVL (Distributional Implicit Value Learning)不用单一数值代表状态价值而是用分布Categorical Distribution来保留数据中的多模态信息比如某些动作在特定情况下能成功并根据不确定性自适应调整乐观程度Adaptiveτ \tauτ。QAM (Q-learning with Adjoint Matching)不直接反向传播Q值梯度那样太贵且不稳定而是将其转化为对流模型Flow Policy的局部回归目标实现了对VLA生成过程的精准微调。技术传承继承了IQL (Implicit Q-Learning)的隐式策略改进思想和Flow Matching的生成式建模架构改进了IQL的标量值估计为分布式的Distributional并将QAM算法从模拟环境迁移到了真实世界的VLA模型训练中。实验验证只列最关键的2-3个exp1:多任务真实机器人性能对比设置: 16台双臂机器人8个真实世界任务包括4个长周期任务如功夫茶、果汁制作。数据: 真实物理环境对比SFT, RECAP, HG-DAgger等基线。结论: LWD (Online) 平均得分达到0.95尤其在长周期任务上大幅领先0.91 vs SFT的0.68且循环时间缩短了23.75秒。exp2:消融实验Ablation Study设置: 对比DIVL与标量Expectile回归对比自适应τ \tauτ策略与固定τ \tauτ。数据: 离线与在线阶段的消融。结论: 分布式值学习DIVL在长周期任务上带来了显著提升16.7%证明了处理异构数据分布的重要性。同类工作对比RECAP (2025): 同样是迭代式离线RL但RECAP主要依赖优势权重筛选数据且未实现真正的在线部署闭环LWD直接利用在线交互和人类干预数据通过DIVL处理异构数据更鲁棒。HG-DAgger (2019): 依赖人类专家不断提供演示修正Imitation LearningLWD利用RL直接从结果Reward优化能探索更广的状态空间且不完全依赖人类标定动作。SOP (2026): SOP提供了可扩展的在线微调系统架构LWD在此基础上提供了具体的RL算法内核DIVLQAM解决了SOP中未详细涉及的长周期稀疏奖励问题。强相关文献3篇π₀: A vision-language-action flow model for general robot control (2024)Implicit Q-Learning (2021)Q-learning with Adjoint Matching (2026)局限与适用边界作者承认的limitation当前在线学习调度策略较简单Real-time schedule未针对超大规模部署优化复杂长周期任务依赖单一高层指令缺乏细粒度的视觉语言推理分解安全性机制未显式建模。你判断的适用场景适合拥有机器人车队Fleet的规模化部署场景如仓储物流、零售理货、家庭服务用于解决长周期、稀疏奖励的通用任务不适用于单机、无云端协同、或对安全性要求极高且无法容忍试错的场景。我的大规模的RL训练VLA。RL上面有一点创新部分原理没太看懂。
http://www.gsyq.cn/news/1379740.html

相关文章:

  • Harepacker-resurrected实战指南:专业级MapleStory资源编辑与地图设计深度解析
  • 答辩 PPT 不用熬夜肝!paperxie AI PPT 生成器,一键搞定毕业季所有演示需求
  • 如何在浏览器中解锁加密音乐文件:Unlock-Music完全指南
  • 网盘直链下载助手:九大主流平台高速下载终极指南
  • 摆脱论文困扰!2026年最值得拥有的专业AI智能降重工具
  • PlayAI实时翻译如何重构跨国协作效率?揭秘2024企业级应用的3个关键转折点
  • C语言有符号和无符号在内存中的存储方式区别小结
  • 5步精通Beyond Compare密钥生成:从原理到实战的完整解锁方案
  • AutoDock-Vina终极指南:从零开始掌握分子对接的完整教程
  • 导师反馈“AI痕迹明显”,有哪些真正公认好用的的降AIGC软件推荐?
  • 拯救你的B站缓存视频:5秒解锁被遗忘的数字记忆
  • Unity厨房物理系统:基于热力学建模的可交互烹饪模拟
  • 为OpenClaw工具配置Taotoken后端实现更自由的AI调用
  • DeepSeek RAG场景吞吐量翻倍实践(性能测试SOP v2.3正式版首发)
  • TV Bro电视浏览器:终极指南,让您的智能电视上网体验更简单
  • 2026年海南注册公司代理记账,哪家代办机构口碑好?新横向测评综合评分排行榜 - GrowthUME
  • OpenTK 3.3.3实现3D旋转立方体:C# OpenGL入门实战
  • OpenClaw 源码解析(六):openclaw agent 如何触发一次 Agent 运行?
  • OpenClaw 源码解析(五):setup / onboard 与本地配置初始化
  • 告别Selenium!用DrissionPage的ChromiumPage实现更优雅的浏览器自动化(附多标签页实战技巧)
  • 射频开关在WWAN中的系统角色与技术
  • 别再死记硬背了!用Python脚本模拟UDS $34/$36/$37诊断刷写,5分钟搞懂数据流
  • 阿米巴经营咨询十大靠谱机构排行,2026老板怎么选 - 远大方略管理咨询
  • 机器学习势函数在高温超导材料缺陷与相变研究中的应用
  • Keil MDK中启用C++11动态语法检查的完整指南
  • 怎么做好采购管理?采购管理必须亲自抓好的4个环节!
  • 双机器学习因果推断:热浪如何影响城市夜间灯光与经济活动
  • WGAN在量子光学层析图生成与态分类中的应用与实现
  • 基于物理信息机器学习的EDFA参数辨识与增益预测
  • R-CNN的基石:深入理解Selective Search算法中的颜色、纹理、大小、形状相似度计算