当前位置: 首页 > news >正文

2025_NIPS_Task-aware world model learning with meta weighting via bi-level optimization

文章主要内容总结

该研究聚焦于模型基强化学习(MBRL)中“世界模型与智能体特定任务的环境对齐”问题,提出了一种基于双层优化的任务感知环境建模框架(TEMPO)。

现有模型存在两类局限:最大似然估计(MLE)模型虽能保留丰富语义信息,但平等对待所有观测信息,忽视任务相关信息,导致模型回报与环境回报存在差距;价值等价模型虽能聚焦任务价值相关特征,但丢弃大量语义信息,且面临实现和扩展性难题。

TEMPO以DreamerV2的循环状态空间模型(RSSM)为基础,核心设计包括:1)提出变分价值感知损失(V-VAML),适配 latent 状态空间,通过后验状态与先验状态的价值差异评估模型任务感知能力;2)引入元加权网络(meta weighter),为MLE目标中的每个训练样本分配任务相关的重要性权重;3)构建双层优化结构:下层通过加权MLE目标训练世界模型,保留语义信息并聚焦重要样本;上层通过最小化V-VAML损失优化元加权网络,实现任务感知。

实验在DeepMind Control Suite的9个连续控制任务和Atari的6个离散控制任务中验证,TEMPO在渐近性能、训练稳定性和收敛速度上均达到当前最优,显著优于DreamerV2及D4PG、Rainbow等模型无关RL算法,消融实验验证了元加权机制和输入设计的有效性。

创新点

  1. 双层优化融合两类模型优势:首次将元学习思想引入世界模型训练,通过上层元加权网络优化任务感知损失、下层训练加权MLE模型,既保留了MLE模型的语义信息丰富性,又具备价值等价模型的任务针对性,解决了两类模型的固有矛盾。
http://www.gsyq.cn/news/1527616.html

相关文章:

  • Linux fat_add_cluster FAT32簇链与shortname生成
  • DeepLab_v3评估指标详解:mIoU、像素准确率等关键指标计算
  • MTK平台DWS配置GPIO,这10个选项别再乱勾了(附EintMode中断避坑指南)
  • 哪个豆包可以生成 word 文档?AI 导出鸭助力文档一键生成,高效便捷超实用
  • GPR数据切片(Slice)实战:从3D数据到清晰成像,关键参数设置与避坑指南
  • 从热失控到封装熔断:一张SOA图背后的5个MOSFET“死亡陷阱”与实测避坑
  • STC8G1K08A-8PIN开发踩坑记:为什么P54引脚不能当普通IO用?一个实习生的血泪教训
  • Prometheus日志里总报‘无序时间戳’?别慌,这5个配置坑你肯定踩过
  • 2025_NIPS_Ensemble-based Deep Reinforcement Learning for Vehicle Routing Problems under Distribut...
  • PyTorch DataLoader报错‘stack expects each tensor to be equal size’?别慌,手把手教你排查图片数据集里的‘通道数刺客’
  • 哪个 ChatGPT 和 Gemini 可以生成 word 文档,AI 导出鸭一键导出更省心
  • Outlook邮件变‘隐形’?可能是你的显卡驱动或字体颜色在捣鬼
  • 2026成都高端名酒回收市场深度观察:哪里更靠谱? - 优质品牌商家
  • 别再为`code been used`和字段名抓狂了!微信米大师2.0接入的这两个坑,我帮你填平了
  • Fable5做代码分析实测
  • 从‘通信中断’到精准定位:CAN总线三大经典短路故障的排查心法与避坑指南
  • SH9认知曲率的严格定义与Ω_c阈值猜想的几何推导(世毫九实验室学术研究版)
  • 2026年潍坊活动板房行业深度调研:从临建用房到创意箱,这12家企业谁更懂你的需求? - 优质品牌商家
  • 数据结构实验避坑指南:严蔚敏C语言版‘图书信息管理’常见Bug与调试技巧
  • 别再只会kubectl delete了!深入理解K8s Finalizer和Webhook,彻底解决Namespace Terminating问题
  • Cadence OrCAD新手避坑指南:从DRC检查到Annotate重排,搞定网表导出全流程
  • CF2232A题解
  • Scratch列表排序避坑指南:蓝桥杯考过的‘移动’和‘删除’操作,你真的做对了吗?
  • 保姆级教程:用示波器和CAN分析仪诊断并解决CAN总线Bus Off故障
  • YOLO环境配置翻车实录:从‘-U’误操作到CUDA版本不匹配,我踩过的坑你别再踩了
  • 避坑指南:Proteus8仿真AT89C51串口通信,你的数码管为啥不亮?
  • 避坑指南:用频谱分析仪调试MC1496混频电路时,如何准确设置扫频范围和分辨率带宽?
  • 5大场景重塑你的网盘下载体验:告别限速烦恼的终极指南
  • 告别玄学调优:给IntelliJ IDEA分配6G内存后还卡?试试开启Metal渲染和新UI(附2023.3版配置截图)
  • 2026年乡村公路热镀锌防撞护栏报价分析与品牌选择指南:从材质到工程交付的全面评估 - 优质品牌商家