一、策略梯度算法1. 从基于价值到基于策略传统Q学习学习动作价值函数而策略梯度直接学习参数化策略 πθ(a∣s)目标函数为期望回报通过梯度上升最大化目标函数。策略梯度定理给出2. REINFORCE算法使用蒙特卡洛方法估计 Q(s,a)梯度为流程采样轨迹 → 计算每个时刻的回报 ψt → 更新参数 θθα∑tψt∇θlogπθ(at∣st)二、Actor-Critic框架1. 核心思想用可训练的价值网络Critic替代蒙特卡洛估计降低方差。策略梯度的一般形式其中 ψt可以是TD残差 rtγV(st1)−V(st)或优势函数 A(s,a)Q(s,a)−V(s)。2. A2C算法Actor更新θ←θαθ∑δt∇θlogπθ(at∣st)Critic更新损失函数梯度下降更新3. A3C异步A2C使用多线程并行采样梯度异步更新大幅提升训练效率。三、确定性策略梯度DPG与DDPG1. 确定性策略随机策略a∼πθ(⋅∣s)确定性策略aμθ(s)连续动作空间可微确定性策略梯度定理2. DDPG算法解决DPG神经网络不稳定的问题采用经验回放off-policy目标网络软更新 ττ批标准化动作噪声探索更新流程Critic最小化 L1/N∑(yi−Qω(si,ai))2其中Actor通过链式法则更新四、SAC算法Soft Actor-Critic1. 最大熵强化学习目标函数加入熵正则项鼓励探索Soft贝尔曼方程2. SAC核心技巧使用两个Q网络取min缓解过高估计重参数化技巧使采样可导atfθ(ϵt;st)atfθ(ϵt;st)自动调整熵正则系数 αα损失函数3. 算法流程初始化Q网络、策略网络、目标网络、经验池 → 每个时间步采样动作交互 → 存储 → 从回放池采样 → 计算目标y → 更新Critic → 重参数化更新Actor → 更新αα → 软更新目标网络五、基于模型的控制1. 模型预测控制MPC无显式策略每步生成候选动作序列推演未来 HH 步选最优序列的第一个动作执行。打靶法随机打靶随机采样动作序列交叉熵方法CEM维护分布保留最优M条序列更新分布迭代优化2. PETS算法概率集成与轨迹采样。环境模型输出高斯分布损失函数为负对数似然第一项马氏距离加权预测误差第二项协方差正则防止方差坍缩集成多个模型不同初始化不同数据捕捉认知不确定性MPC时随机选模型预测。3. MBPO算法基于模型的策略优化关键观察模型推演步数过长累积误差大。解决方案分支推演——从真实采样状态开始用模型推演短步数k步生成数据用于训练策略。无模型部分使用SAC。六、DRL控制应用案例案例一无人机自主导航与避障状态自身状态位置/速度/姿态 传感器雷达/视觉动作连续三维加速度或角速度奖励距离目标负惩罚−d−d、碰撞惩罚-100、能耗惩罚−∥a∥2×0.01−∥a∥2×0.01、成功奖励500算法PPO稳定、样本效率高或SAC平滑、鲁棒案例二机械臂轨迹跟踪动力学任务末端执行器精确跟踪“8”字等轨迹奖励跟踪误差惩罚 控制平滑惩罚结果SAC跟踪精度达微米级抗扰动能力远超PID