当前位置: 首页 > news >正文

深度强化学习与控制 课程 第二周 课程总结

一、策略梯度算法1. 从基于价值到基于策略传统Q学习学习动作价值函数而策略梯度直接学习参数化策略 πθ(a∣s)目标函数为期望回报通过梯度上升最大化目标函数。策略梯度定理给出2. REINFORCE算法使用蒙特卡洛方法估计 Q(s,a)梯度为流程采样轨迹 → 计算每个时刻的回报 ψt → 更新参数 θθα∑tψt∇θlog⁡πθ(at∣st)二、Actor-Critic框架1. 核心思想用可训练的价值网络Critic替代蒙特卡洛估计降低方差。策略梯度的一般形式其中 ψt可以是TD残差 rtγV(st1)−V(st)或优势函数 A(s,a)Q(s,a)−V(s)。2. A2C算法Actor更新θ←θαθ∑δt∇θlog⁡πθ(at∣st)Critic更新损失函数梯度下降更新3. A3C异步A2C使用多线程并行采样梯度异步更新大幅提升训练效率。三、确定性策略梯度DPG与DDPG1. 确定性策略随机策略a∼πθ(⋅∣s)确定性策略aμθ(s)连续动作空间可微确定性策略梯度定理2. DDPG算法解决DPG神经网络不稳定的问题采用经验回放off-policy目标网络软更新 ττ批标准化动作噪声探索更新流程Critic最小化 L1/N∑(yi−Qω(si,ai))2其中Actor通过链式法则更新四、SAC算法Soft Actor-Critic1. 最大熵强化学习目标函数加入熵正则项鼓励探索Soft贝尔曼方程2. SAC核心技巧使用两个Q网络取min缓解过高估计重参数化技巧使采样可导atfθ(ϵt;st)at​fθ​(ϵt​;st​)自动调整熵正则系数 αα损失函数3. 算法流程初始化Q网络、策略网络、目标网络、经验池 → 每个时间步采样动作交互 → 存储 → 从回放池采样 → 计算目标y → 更新Critic → 重参数化更新Actor → 更新αα → 软更新目标网络五、基于模型的控制1. 模型预测控制MPC无显式策略每步生成候选动作序列推演未来 HH 步选最优序列的第一个动作执行。打靶法随机打靶随机采样动作序列交叉熵方法CEM维护分布保留最优M条序列更新分布迭代优化2. PETS算法概率集成与轨迹采样。环境模型输出高斯分布损失函数为负对数似然第一项马氏距离加权预测误差第二项协方差正则防止方差坍缩集成多个模型不同初始化不同数据捕捉认知不确定性MPC时随机选模型预测。3. MBPO算法基于模型的策略优化关键观察模型推演步数过长累积误差大。解决方案分支推演——从真实采样状态开始用模型推演短步数k步生成数据用于训练策略。无模型部分使用SAC。六、DRL控制应用案例案例一无人机自主导航与避障状态自身状态位置/速度/姿态 传感器雷达/视觉动作连续三维加速度或角速度奖励距离目标负惩罚−d−d、碰撞惩罚-100、能耗惩罚−∥a∥2×0.01−∥a∥2×0.01、成功奖励500算法PPO稳定、样本效率高或SAC平滑、鲁棒案例二机械臂轨迹跟踪动力学任务末端执行器精确跟踪“8”字等轨迹奖励跟踪误差惩罚 控制平滑惩罚结果SAC跟踪精度达微米级抗扰动能力远超PID
http://www.gsyq.cn/news/1373117.html

相关文章:

  • cann-learning-hub:昇腾CANN社区的学习中心
  • 别再让Ubuntu卡成PPT了!手把手教你给32G大内存服务器调整Swap分区(附永久生效配置)
  • PentestGPT:AI驱动的渗透测试工作流语义编排器
  • 用Python预测股价靠不靠谱?手把手带你看CNN-BiLSTM模型在沪深300上的完整复盘
  • 告别电费糊涂账:用Python和开源工具NILMTK,5分钟看懂你家每台电器用了多少电
  • 模块化触觉显示系统:气动软体机器人与信息论的创新结合
  • 基于SpringBoot+用户画像的商品个性化推荐毕业设计
  • JAVA---面向对象的三大特性
  • BP算法(反向传播)初步学习
  • Java基础总结(快速入门版)
  • 【STM32 C 语言入门】什么是强制类型转换?小白也能秒懂!
  • 网页控制|鼠标控制事件(JavaScript实现)
  • CFD模拟中的低精度浮点运算优化实践
  • 2026年AI模型接口中转站真实测评:五大主流大模型API聚合平台深度实测调研指南
  • 跟同传搭档吃了这汤锅,蘑菇真香啊!未来3天一起干活啦哈哈。加油!
  • LeetCode 每日一题笔记 日期:2026.05.22 题目:33. 搜索旋转排序数组
  • Nsight System和Compute命令行
  • 开源项目推荐:ORIGIN AI Workspace —— 一键部署你的私有 AI 工作站
  • 四川钢板生产厂家名录|2026 年 5 月行情走势与价格预测 - 四川盛世钢联营销中心
  • 数据结构-队列(顺序存储、链式存储、双端队列)
  • 【AgenticCPS】普通人怎么靠 618 赚返利?一套 CPS 实操打法
  • 在命令行中运行.py文件报错No module named triton
  • 用Python+GM(1,1)模型预测业务恢复时间:以航空业为例,手把手教你做灰色预测
  • C++ 字符串快速指南
  • 超级IP智能体 一键追爆口播短视频IP热门复刻同款视频程序一键矩阵发布
  • 人体姿态检测数据集分享(适用于YOLO系列深度学习检测任务)
  • 2026年Q2四川消防维修维保品牌名录及选型指南:成都消防维修口碑/消防技术服务/消防改造公司/消防改造多少钱/选择指南 - 优质品牌商家
  • Armv9-A加密点缓存维护机制与SoC优化实践
  • SVN SSL证书验证失败的根源与四关卡排障法
  • AI 术语通俗词典:RAG