当前位置: 首页 > news >正文

强化学习入门ⅡCS188 Note10 学习笔记

更好的阅读体验Approximate Q-learningQ-learning虽然很有优势但是缺乏了泛化能力。当pacman学习了figure1中的困境后智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样所以说Q-Learning很有局限性这时候该算法就不再记下具体状态而是记住状态特征将状态表示为特征向量比如pacman的特征向量就可以编码为离最近ghost的距离离最近food的距离ghost的数量pacman是否被困住了0 or 1Q函数建模为特征的线性组合Q ( s , a ) w 1 f 1 ( s , a ) w 2 f 2 ( s , a ) ⋯ w n f n ( s , a ) w ⃗ ⋅ f ⃗ ( s , a ) \begin{align*} Q(s,a) w_1 f_1(s,a) w_2 f_2(s,a) \cdots w_n f_n(s,a) \vec{w}\cdot\vec{f}(s,a) \end{align*}Q(s,a)​w1​f1​(s,a)w2​f2​(s,a)⋯wn​fn​(s,a)w⋅f​(s,a)​每一步需要计算difference,并且更新权重difference [ R ( s , a , s ′ ) γ max ⁡ a ′ Q ( s ′ , a ′ ) ] − Q ( s , a ) \begin{align*} \text{difference} \big[ R(s,a,s) \gamma \max_{a} Q(s,a) \big] - Q(s,a) \end{align*}difference​[R(s,a,s′)γa′max​Q(s′,a′)]−Q(s,a)​w i ← w i α ⋅ d i f f e r e n c e ⋅ f i ( s , a ) \begin{align*} w_i \leftarrow w_i \alpha \cdot \mathrm{difference} \cdot f_i(s,a) \end{align*}wi​​←wi​α⋅difference⋅fi​(s,a)​这样一来我们的内存使用效率就极高泛化能力也具备了。在这个过程中相似状态会得到相似的Q值即使没有被访问过得状态也能合理估计Exploration vs. Exploitation在强化学习中智能体agent需要在以下两者之间做出权衡Exploitation利用按照当前已知的最优策略行动以最大化即时奖励。Exploration探索尝试未知的动作以发现可能更优的策略从而获得长期收益。如果只利用不探索可能陷入局部最优如果只探索不利用则无法积累有效经验。因此如何在两者之间取得平衡是强化学习的核心问题之一ε-Greedy Policies一种很基础来强迫智能体做出Exploration的方法给定一个0 ε 1有 ε 的概率随机选择动作( Exploration )有1- ε 的概率来选择当前最优动作( Exploitation )非常的简单且有效但是缺点也十分明显在已经学习到最佳动作后仍然有很大的概率来做出随机行为。但是如果ε太小了的话又会导致探索不足学习速度过慢。一种简单解决问题的办法就是使ε随时间衰减Exploration Functions这是一种更智能的选择这种方式通过在Q值更新中引入探索奖励Q值迭代表达式更新变为Q ( s , a ) ← ( 1 − α ) Q ( s , a ) α [ R ( s , a , s ′ ) γ max ⁡ a ′ f ( s ′ , a ′ ) ] \begin{align*} Q(s,a) \leftarrow (1-\alpha)Q(s,a) \alpha\big[ R(s,a,s) \gamma \max_{a} f(s,a) \big] \end{align*}Q(s,a)​←(1−α)Q(s,a)α[R(s,a,s′)γa′max​f(s′,a′)]​其中f( s, a )为探索函数常见形式为f ( s , a ) Q ( s , a ) k N ( s , a ) \begin{align*} f(s,a) Q(s,a) \frac{k}{N(s,a)} \end{align*}f(s,a)​Q(s,a)N(s,a)k​​其中N( s, a )表示状态-动作对( s, a )被访问的次数。k表示偏好系数即控制探索( Exploration )的强度RL SummaryModel-based Learning基于模型的学习在Note9中有详细介绍:先估计环境的转移函数T和奖励函数R再用这些估计值进行规划如 Value Iteration/ Policy Iteration)Model-free Learning无模型学习在Note9中有详细介绍不显式估计 TT 和 RR直接学习值函数或策略方法描述特点Direct Evaluation根据策略π ππ统计每个状态的累计奖励简单但收敛慢忽略状态间转移信息Temporal Difference Learning (TD Learning)用指数移动平均更新值函数在线学习收敛更快适合 on-policyQ-Learning用 Q 值迭代直接学习最优策略Off-policy可容忍次优行为Approximate Q-Learning用特征表示状态泛化能力强适合大规模状态空间On-policy vs. Off-policy类型定义例子On-policy学习当前策略下的值函数Direct Evaluation, TD LearningOff-policy学习最优策略即使当前行为是次优的Q-LearningRegret还有一个重要概念叫做Regret我们至今不知道如何评判一个智能体强化学习性能的好坏无法评判智能体学习到了哪一步不知道智能体在Exploration vs. Exploitation之间取舍是否理智我们就引入了RegretR e g r e t 最优策略累计奖励 − 算法实际累计奖励 Regret最优策略累计奖励−算法实际累计奖励Regret最优策略累计奖励−算法实际累计奖励低 regret 表示算法在早期也能做出较好的决策
http://www.gsyq.cn/news/1364651.html

相关文章:

  • Ollydbg安装与调试稳定性实战指南
  • 稀疏矩阵:深度学习三大架构的统一数学语言
  • 基于内幕交易数据的机器学习股价预测:SVM、随机森林与特征工程实战
  • 原神自动化终极指南:5分钟学会BetterGI解放游戏时间
  • 2026年目前可靠的邓州室内装修品牌哪家好 - 品牌排行榜
  • 【独家实测】12种火焰风格生成成功率排行榜(含燃烧强度/流体轨迹/余烬衰减量化评分),第7名99%人从未试过
  • 【限时技术解密】Midjourney未公开的饱和度隐式约束机制:基于2372条训练图像元数据逆向推演的4项硬性规则
  • 基于LDP与模型可解释性的机器学习预处理流程隐私安全验证框架
  • Go语言API网关设计与实现
  • Oracle WebLogic安全加固与RCE漏洞检测实践指南
  • Go语言服务注册与发现机制详解
  • 性价比高的CPE流延高透膜设备先进的加工厂盘点,哪家比较靠谱 - mypinpai
  • Windows控制台程序逆向入门:从CMP指令看程序逻辑解构
  • 2025-2026年王雯律师电话查询:委托前请核实执业资质与收费标准 - 品牌推荐
  • 别再死记硬背EM算法了!用Python手写一个硬币实验,5分钟搞懂E步和M步
  • DLSS Swapper终极指南:免费开源的DLSS文件智能管理工具
  • 别光看MLP了!手把手带你用Python复现KAN网络,实测拟合效果到底有多强
  • 边缘计算中LLM推理优化:CLONE方案解析
  • 半监督学习在海洋异常检测中的实践与优化
  • Cortex-A53双比特错误注入与统计机制详解
  • Windows API测试便携工具:基于WinHTTP的零依赖HTTP调试方案
  • JMeter高并发压测的业务建模方法论
  • LDA降维在信用风险评估中的实战应用与模型性能提升
  • 量子机器学习中的几何优化:从贫瘠高原理论到量子自然梯度实践
  • 量子机器学习在药物发现中的优势:小样本与特征缺失场景下的性能突破
  • 安卓13+VMOSPro双环境HttpCanary抓包实战指南
  • 归一化评估指标:解决小数据与不平衡数据模型评估难题
  • Python移动端反爬实战:Charles+Frida+签名复现全链路
  • 非Root安卓设备上使用Frida Gadget实现应用层Hook
  • KBE登录异常排查:baseapp通信故障定位指南