当前位置: 首页 > news >正文

强化学习实战:用Python手搓Sarsa和Q-Learning,在悬崖漫步里看谁更“怂”

强化学习实战Python实现Sarsa与Q-Learning在悬崖漫步中的策略差异从游戏视角理解强化学习核心算法想象你正站在一个4×12的网格世界起点目标是到达右下角的终点。但中间有一片悬崖——任何踏入都会让你回到起点并承受巨大惩罚。每走一步都会消耗体力负奖励而安全到达终点则获得奖励。这就是经典的悬崖漫步环境也是理解强化学习基础算法的绝佳试验场。本文将带你用Python实现两种最基础的时序差分(TD)算法——Sarsa和Q-Learning通过直观的代码实验揭示它们在策略安全性上的本质差异。不同于单纯的理论讲解我们将使用Gym库搭建可视化环境从零编写算法代码调整关键参数观察策略变化可视化智能体的走位决策过程import gym import numpy as np import matplotlib.pyplot as plt # 创建悬崖漫步环境 env gym.make(CliffWalking-v0) print(f状态空间大小: {env.observation_space.n}) print(f动作空间: {env.action_space.n}) # 0:上, 1:右, 2:下, 3:左1. 环境解析与Q表初始化悬崖漫步环境是一个典型的离散状态-动作空间问题非常适合表格型方法。环境特点状态48个离散位置4行×12列动作4个方向移动上、右、下、左奖励每步-1掉崖-100并重置到达终点0我们先初始化Q表这是两种算法共享的数据结构class CliffWalkingAgent: def __init__(self, env, alpha0.1, gamma0.9, epsilon0.1): self.env env self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 self.q_table np.zeros((env.observation_space.n, env.action_space.n))2. Sarsa算法实现保守派的路径选择Sarsa是一种on-policy算法其名称源自更新公式中使用的状态-动作序列(S, A, R, S, A)。核心特点是当前策略决定下一个动作导致更保守的行为模式。2.1 算法原理Sarsa的更新公式Q(S,A) ← Q(S,A) α[R γQ(S,A) - Q(S,A)]其中α学习率γ折扣因子A根据当前策略在S状态下选择的动作class SarsaAgent(CliffWalkingAgent): def update(self, s, a, r, s_, a_): # Sarsa更新公式 td_target r self.gamma * self.q_table[s_, a_] td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() a self._choose_action(s) episode_reward 0 done False while not done: s_, r, done, _ env.step(a) a_ self._choose_action(s_) self.update(s, a, r, s_, a_) episode_reward r s, a s_, a_ rewards.append(episode_reward) return rewards2.2 策略可视化与结果分析训练完成后我们可以可视化学习到的策略def plot_policy(q_table): arrows [↑, →, ↓, ←] policy np.argmax(q_table, axis1).reshape(4,12) for row in range(4): line [] for col in range(12): if row 3 and (0 col 11): line.append(×) # 悬崖 else: line.append(arrows[policy[row,col]]) print( .join(line))典型输出→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ →可以看到Sarsa倾向于选择远离悬崖的安全路径尽管这条路更长。这是因为在靠近悬崖的状态下随机探索可能导致掉崖算法会将这些高风险状态的Q值降低最终策略会避开这些高风险区域3. Q-Learning实现冒险家的最优路径Q-Learning是off-policy算法其更新公式为Q(S,A) ← Q(S,A) α[R γmax_a Q(S,a) - Q(S,A)]关键区别在于使用最优未来价值而非实际采取的动作。3.1 代码实现class QLearningAgent(CliffWalkingAgent): def update(self, s, a, r, s_, done): # Q-Learning更新公式 if done: td_target r else: td_target r self.gamma * np.max(self.q_table[s_]) td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() episode_reward 0 done False while not done: a self._choose_action(s) s_, r, done, _ env.step(a) self.update(s, a, r, s_, done) episode_reward r s s_ rewards.append(episode_reward) return rewards3.2 策略对比Q-Learning的典型策略→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ → → → → → → → → → → →Q-Learning倾向于贴着悬崖的最短路径因为它学习的是最优策略的价值估计不考虑探索时的随机动作影响理论上当探索率ε→0时能收敛到最优路径4. 参数实验探索率ε的影响探索率ε是控制算法行为的关键参数。我们通过实验观察不同ε值对策略的影响epsilons [0.01, 0.1, 0.3] results {} for eps in epsilons: agent SarsaAgent(env, epsiloneps) results[fSarsa(ε{eps})] agent.train() agent QLearningAgent(env, epsiloneps) results[fQ-Learning(ε{eps})] agent.train() # 绘制学习曲线 plt.figure(figsize(10,6)) for label, rewards in results.items(): plt.plot(np.convolve(rewards, np.ones(50)/50, modevalid), labellabel) plt.legend() plt.xlabel(Episode) plt.ylabel(Average Reward) plt.title(Performance under Different Exploration Rates) plt.show()实验发现Sarsa高ε值导致更保守的策略Q-Learning高ε值增加掉崖风险但保持最优路径倾向5. 算法本质差异解析两种算法在悬崖漫步中表现差异的根本原因特性SarsaQ-Learning策略类型On-policyOff-policy更新目标当前策略的动作最优可能动作安全性高低路径长度长但安全短但有风险适用场景高风险环境确定性环境用驾驶比喻Sarsa新手司机考虑实际可能采取的操作包括失误Q-Learning理想化驾驶假设总能做出完美决策6. 进阶技巧与优化6.1 动态探索率class DecayEpsilonAgent(CliffWalkingAgent): def __init__(self, env, epsilon_start1.0, epsilon_end0.01, epsilon_decay0.995): super().__init__(env) self.epsilon epsilon_start self.epsilon_end epsilon_end self.epsilon_decay epsilon_decay def _choose_action(self, s): self.epsilon max(self.epsilon_end, self.epsilon*self.epsilon_decay) return super()._choose_action(s)6.2 可视化价值函数def plot_value_function(q_table): v np.max(q_table, axis1).reshape(4,12) plt.imshow(v, cmaphot) plt.colorbar() plt.title(State Value Function) plt.axis(off) for i in range(4): for j in range(12): plt.text(j, i, f{v[i,j]:.1f}, hacenter, vacenter, colorblue)7. 工程实践建议在实际项目中应用这些算法时环境敏感性分析先理解环境特性再选择算法超参数调优系统性地探索参数空间可视化调试价值函数和策略可视化至关重要基准测试与随机策略或规则策略比较稳定性处理考虑使用滑动平均评估性能# 性能评估函数 def evaluate(agent, runs100): total_rewards [] for _ in range(runs): s env.reset() done False rewards 0 while not done: a np.argmax(agent.q_table[s]) # 使用贪婪策略 s, r, done, _ env.step(a) rewards r total_rewards.append(rewards) return np.mean(total_rewards), np.std(total_rewards)通过这个完整的实现和实验过程我们直观地验证了Sarsa的保守特性使其适合安全关键应用Q-Learning在充分探索后能找到最优路径探索率对策略安全性的显著影响可视化在强化学习开发中的重要性
http://www.gsyq.cn/news/1363026.html

相关文章:

  • AI时代版权新范式:智能代理如何重塑数据交易与创作者权益
  • AI司法应用中的算法公平性:从数据偏见到保护属性选择的技术实践
  • 从PIL到OpenCV:一文读懂AutoAugment里16种图像增强操作的实现细节与效果对比
  • 手把手教你:在无网Linux服务器上搞定CUDA 12.2和cuDNN的离线安装(附环境变量配置避坑指南)
  • 告别K-means!用DBSCAN搞定雷达点云聚类,手把手教你调参(附Matlab代码)
  • 事件相机数据预处理:基于线检测的脉冲神经网络能效优化策略
  • 因果森林中R-learner正交化如何解决混杂偏倚:原理、模拟与实战
  • 2026年5月,武汉宠主的纯种马尔济斯甄选指南 - 2026年企业推荐榜
  • 告别息屏休眠!麒麟KylinOS 2303系统级电源管理模板配置保姆级教程
  • Rufus翻车实录:制作Manjaro/Kali Linux启动盘时,你可能遇到的3个坑及解决办法
  • 大语言模型(LLM)技术原理、演进与产业落地
  • 【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第二题- 多约束条件下的元素匹配统计】(题目+思路+JavaC++Python解析+在线测试)
  • 【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第一题- 荆棘林的最优砍断计划】(题目+思路+JavaC++Python解析+在线测试)
  • 【最新 v 2.7.5】Windows 部署 Open Claw 实测:每天省 2 小时,这 AI 员工我先用上了
  • Unity接入Azure OpenAI实战避坑指南:TLS、认证与协程陷阱
  • 仅剩72小时!Midjourney即将关闭--contrast实验性参数——最后掌握原生对比度控制的窗口期
  • 国内压装浮动头厂家实力排行:500kg伺服电动缸/50吨伺服电动缸/5吨伺服电动缸/C型伺服压机/exdIIBT4级防爆伺服压机/选择指南 - 优质品牌商家
  • 基于Lambda架构与Azure云服务构建高通量农业表型数据处理流水线
  • 基于源码语法模式的Bug引入提交检测:从特征工程到模型实践
  • 别再只调包了!手把手教你用Python+SVM从零实现一个中文情感分析模型(附完整代码)
  • 避坑指南:在Win11上为ENVI5.6成功挂载SARscape插件的完整流程(从安装到文件配置)
  • 别再只点‘编辑设置’了!vSphere磁盘扩容后,Linux LVM这5个关键命令一个都不能少
  • Unity集成NuGet包的原理与工程化实践
  • 别再只用当天数据了!用Python+随机森林预测股价,试试这个加入历史数据的实战技巧
  • 2026年Q2供应链订货系统品牌选型技术解析:b2b供应链系统、wms仓储物流管理软件、wms仓库管理软件、wms管理系统选择指南 - 优质品牌商家
  • 2026年西安网站建设制作品牌TOP5客观盘点:西安网站制作/西安网站建设制作/西安网站建设服务/西安企业网站建设一条龙/选择指南 - 优质品牌商家
  • 告别眨眼误判!用Python+OpenCV优化人脸68关键点疲劳检测的3个实用技巧
  • 从Lyapunov到LMI:一个控制理论小白的直观理解与避坑指南
  • k6性能测试:轻量协程与可观测性驱动的企业级压测工程化
  • 保姆级教程:用Python脚本把COCO人体关键点数据集转成YOLO格式(附完整代码)