当前位置: 首页 > news >正文

Bellman方程 - RL强化学习中价值估计的数学根基

TL;DR Too Long; Didn’t Read,太长没仔细看
S status
A action
R reward

下标 a~π:读作 a 服从分布 π
a:action,智能体当前选择的动作
π:Policy(策略),大模型 / 强化学习里就是策略模型,输入状态 s ,输出每个动作 a 的选择概率分布

π 是一个函数 π(a | s) = P(选动作a | 当前状态s)
输入当前环境状态 s,输出所有动作的概率分布,这就是一套完整决策策略:给定任意场景,告诉每种行为该以多大概率执行
早期控制论、马尔可夫决策过程(MDP)文献,统一用小写希腊字母 π 代表策略映射函数,学界约定俗成记号

确定性策略:π 直接输出唯一动作,比如看到红灯一定停车
随机策略(LLM/PPO 使用):输出概率分布,即 π(a | s)

Actor 是训练后的对话大模型,数学上记为策略 π
核心功能:接收一段上下文,输出词典里每个字(token)的生成概率
用户输入 prompt:今天天气很
词典里候选 token:好、差、冷、热、猫
Actor 模型跑一遍后,输出一组概率:好:70%;冷:20%;热:8%;差:1.8%;猫:0.2%
这一组概率分布,就是策略 π 在当前状态下给出的动作分布

如果是确定性输出(贪心解码):直接选概率最高的好,固定输出。
但 RL 训练、日常生成对话用随机采样 a~π :按照上面的概率抽签选下一个 token:70% 抽中好;20% 抽中冷;小概率抽到别的字

随机采样输出文本:完整生成整条回答的流程(逐 token 循环)

  • 输入 prompt:今天天气很
  • Actor (π) 算出所有 token 概率分布
  • 按概率随机采样 1 个 token,比如抽到好
  • 把 今天天气很+好 拼接成新上下文,再丢回 Actor
    重复步骤 2-4,不断采样下一个字,直到生成结束标记,完整回答就出来了

为什么 RL/PPO 不能直接贪心选最高概率

  • 如果每次固定选概率最高 token,回答会千篇一律,缺乏多样性
  • 强化学习需要多条不同回答样本送入 RM 打分,才能计算奖励、更新模型
  • 公式里的期望 Ea~π,本质就是对「所有可能采样出来的回答」算平均收益,只有随机采样才能模拟这个期望

状态价值贝尔曼方程


γ 国际音标/ˈɡæmə/,中文标准读法伽马

动作价值Q贝尔曼方程

在状态 s 做出动作 a 的长期预期总回报 = 执行 a 拿到的即时奖励,加上 γ 折扣后的「下一状态 s’ 能取到的最优长期回报」,再对所有可能出现的下一状态 s’ 做概率平均 E
最优贝尔曼方程,是 Q-learning 这类强化学习算法的核心,它假设从下一步开始全程都用最棒的策略决策


示例


V 和 Q 的区别

其他补充

总结

贝尔曼方程就是把 “短期收益” 和 “长期未来收益” 绑定在一起,让模型不只看眼前奖励,学会长远最优决策

http://www.gsyq.cn/news/1637802.html

相关文章:

  • EdgeRemover:Windows 10/11 中专业卸载Microsoft Edge的终极解决方案
  • LangChain快速入门-03Retrieval(上)
  • 为什么测试这么难写?
  • HagiCode 是怎么把 13 个 Agent CLI 接到一套系统里的
  • 全球邮轮旅行服务市场投资前景分析及发展研究建议报告2026年版
  • 使用WorkBuddy自动发微博教程
  • Engine-Sim实战:3大技术挑战与精准仿真验证指南
  • Nginx安全头配置实战:从X-Frame-Options到CSP的完整指南
  • magnetW:一款高效的跨平台磁力链接聚合搜索工具完全指南
  • 暖通 / 配电 / 动环培训推荐|传统技工转行机房刚需岗位完整攻略
  • 从团购网的漏洞看网站安全性问题
  • R语言实现电力系统N-1事故分析与风险图谱生成
  • 创业是一种心态、信念和坚持,是一种生活方式
  • UE指的是用户的体验,
  • 多材质通用UV打印机:适配哪些材料?满足多场景印刷需求
  • 深度解析 | RevokeMsgPatcher如何用二进制魔法让撤回消息“无处可藏“
  • AI学习(2)——补:linux自启动llama
  • 数据库学习笔记2——MySQL 的锁机制
  • 编译原理第三版第五章课后题1-2题
  • 硅胶密封件实测:2026年7月亲测排行
  • 【计算机毕业设计】基于Java的智能停车场预约收费系统
  • 炉石传说脚本Hearthstone-Script:5分钟实现智能自动化对战的终极指南
  • 局域网文件共享实战:从“账户被禁用”到成功互传文件
  • Dify工作流与MCP服务:构建可嵌入IDE的AI智能副驾
  • 我用 Codex 复刻了一个 Windows 11 计算器,过程比想象中真实多了
  • 告别西门子依赖!C# 实现信捷 XD 系列 PLC 通信与数据采集
  • Window系统Claude Code安装教程
  • Java后端面试与职业发展:从核心技能到AI应用集成
  • 商品条码查询API实战:调用免费接口快速获取产品信息
  • 小红书数据采集终极指南:Python xhs库完整实战教程