当前位置: 首页 > news >正文

GRPO算法

在当前的 AI 工业界,GRPO(Group Relative Policy Optimization,群体相对策略优化)绝对是风头最劲的强化学习算法。

作为由 DeepSeek 团队在其DeepSeekMathDeepSeek-R1以及后续推理大模型中首次引入并彻底带火的算法,GRPO 的出现重塑了大模型 RLHF(基于人类反馈的强化学习)的格局。

它的核心贡献可以概括为一句话:在不牺牲性能的前提下,通过极其巧妙的“群体相对比较”,直接在架构里砍掉了庞大且昂贵的评论家网络(Critic Network),让大模型强化学习的显存和算力开销骤降。


1. 痛点:为什么传统的 PPO 练不起了?

在 GRPO 出现之前,大模型对齐(特别是让模型学会长文本推理、思维链 O1 化)的主流算法是PPO(近端策略优化)

PPO 采用的是典型的Actor-Critic(演员-评论家)架构。在训练大模型时,这意味着你需要同时在显存里塞下两个同样庞大的模型:

  • Actor(演员网络):大模型本体,负责生成回答(也就是我们最终要用的模型)。
  • Critic(评论家网络):专门用来给 Actor 生成的每一个 Token 甚至每句话评估打分,计算价值函数(Value Function)。

致命弱点:Critic 网络往往和 Actor 一样大。这意味着如果你想微调一个 70B(700 亿参数)的模型,你得在显存里额外再养一个 70B 的 Critic 监督它。这不仅造成了巨大的显存浪费,还导致 Actor 和 Critic 之间复杂的分布式同步极难进行工程优化。


2. 破局:GRPO 的群体相对评级机制

GRPO 的核心思想非常简单粗暴,却直击 PPO 的痛点:既然单独养一个 Critic 算基础分这么贵,我们为什么不让大模型对同一个问题同时生成一堆回答,然后让他们自己内部进行“内卷”和“相对比较”呢?

GRPO 的工作流程:

  1. 群体采样(Group Sampling)
    对于输入的提示词(Promptqqq),让当前的 Actor 模型(策略πθ\pi_\thetaπθ)同时生成一整组回答(通常是GGG个,比如G=4G = 4G=4888),我们称之为一组输出:

{o1,o2,o3,…,oG}\{o_1, o_2, o_3, \dots, o_G\}{o1,o2,o3,,oG}

  1. 奖励打分(Reward Scoring)
    通过一个轻量级的外部裁判(可以是一个基于规则的评测器,比如检查代码是否运行正确、数学答案是否正确;或者是一个独立的、不需要训练的外部小 Reward Model),给这GGG个回答分别打出原始奖励分数:

{r1,r2,r3,…,rG}\{r_1, r_2, r_3, \dots, r_G\}{r1,r2,r3,,rG}

  1. 相对优势计算(Relative Advantage)
    这就是 GRPO 最具魔力的地方。它不需要 Critic 去预测每个状态的绝对价值,而是直接计算这组分数在当前群体内的相对好坏(标准化归一化)
    通过计算这组分数的平均值(Mean)和标准差(Std),第iii个回答的相对优势(Advantage,AiA_iAi)定义为:

Ai=ri−mean(r)std(r)A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}Ai=std(r)rimean(r)

  • 如果某个回答的得分高于平均水平,AiA_iAi就是正的,模型就会被鼓励以后多这么写;
  • 如果某个回答的得分垫底,低于平均水平,AiA_iAi就是负的,模型就会被惩罚。
  1. 策略更新(Policy Update)
    利用计算出的相对优势AiA_iAi,加上 PPO 经典的剪切损失(Clip Loss)和 KL 散度约束(防止大模型一次性改得太离谱),直接更新 Actor 的权重。

3. GRPO 的三大革命性优势

  • 斩断 Critic,显存暴省:
    由于直接通过群体内的相对分数算出了优势函数,GRPO 彻底不需要训练和维护任何 Critic 网络了。这直接为训练集群释放了大量的显存(在大模型微调中,这相当于节省了近半的系统级开销),允许开发者用同样的硬件去训练更大规模的模型,或者把 Batch Size 开得更大。
  • 天生适合“推理型任务”(Reasoning):
    在数学题或编程任务中,中间的思维链(CoT)往往长达几千字,Critic 极难准确评估中间某一步的绝对价值。而 GRPO 采用最终结果导向(Outcome-based),通过在一组回答里筛选出“哪些思维链成功推导出了正确答案,哪些没推出来”来进行相对强化,这种群体优胜劣汰的机制被证明能极高效率地激发出模型的自我反思和自主推理能力(DeepSeek-R1 的惊艳表现正是得益于此)。
  • 工程并行度极高:
    在分布式 GPU 集群上,单模型多样本的采样(Generation/Rollout)可以做到极致的并行。GRPO 纯粹的数据收集和无 Critic 交互特性,让它非常容易在 Megatron-LM、Ray 或 OpenRLHF 等分布式框架上进行高度流水线化扩展。

4. 总结与行业反思

从 PPO 到 GRPO 的演进,不仅是算法公式上的小修小改,更是一种工程思维与学术思维的完美结合。它用“统计学内部对抗”巧妙化解了“二阶绝对价值评估”的物理算力壁垒。

目前,GRPO 已经超越了学术研究的范畴,成为了各大 AI 团队在尝试将开源模型(如 Llama-3、Qwen)进行“O1 式推理能力强化”时的绝对首选标配算法。

http://www.gsyq.cn/news/1481736.html

相关文章:

  • 2026年6月7日科技速递:高考AI监考、芯片股暴跌、谷歌Gemini漏洞、OpenAI人才流失
  • 当 AI Agent 成为你的用户——Agent-Native 网站是什么?为什么现在就该关注?
  • 嵌入式汉字编码与输入法实战:从GB2312原理到MCU实现
  • 一个 VS Code 插件,干翻了 GitHub 3800 个内部仓库
  • 从0到1搭建CSDN AI内容获客体系:3步建模、7天冷启动、22天实现线索成本低于行业均值58%
  • 告别依赖地狱:手把手教你用AppImage在Ubuntu 22.04上安装最新版Neovim(附FUSE问题解决)
  • 软件过程与管理知识回顾1 -
  • 华强北元器件分销商资源整合:从策略联盟到资本联姻的破局之路
  • 2026 无锡锡山区漏水维修攻略|苏易修缮推荐:卫生间/阳台/外墙/屋顶/地下室漏水|靠谱防水门店推荐 - 苏易修缮
  • BetterNCM安装工具:三分钟为网易云音乐打造个性化插件平台
  • 宠乐圈 宠物领养互助平台
  • 避开这些坑!农行OpenBank H5开户SDK集成实战与回调逻辑详解
  • 【字节跳动】入侵用户+隐私侵犯·全量证据材料 续编完整版
  • 太强了!输入主题,这几款AI写作辅助网站直接生成毕业论文!
  • Proteus液晶仿真核心指南:从HD44780到T6963C的驱动原理与实战
  • 记者走访:游戏电竞护航陪玩源码系统小程序升级护航俱乐部接单平台 - 壹软科技
  • 书匠策AI:期刊论文原来可以“躺“着写?这波操作我直接看傻了!
  • SMBus协议深度解析与服务器硬件管理实战指南
  • Claude Mythos:AI 网络安全能力的质变时刻
  • 3分钟搞定B站4K大会员视频下载:免费离线观看终极指南
  • 【字节跳动】Phone 17 Pro Max(序列号CKKG22TXFG,iOS 26.5系统)遭字节外包运维团队通过IP 112.89.36.71/120.47.19.82发起多阶段入侵。攻击者首先
  • 别再死记硬背单词了!用《现代大学英语精读》“Half a Day”做素材,手把手教你搭建个人语料库与记忆系统
  • 2026年6月技术热点速递:LLM省Token神器、阿里开源AI代码审查、微软正式发Linux
  • 白酒老牌企业好评榜:重磅上新 - 品牌推广大师
  • 如何高效使用KLOGG日志分析工具:专业开发者的终极实战指南
  • uni-app App更新弹窗从入门到放弃?手把手教你封装一个高复用、易维护的升级组件
  • 2026 年西安高口碑小程序制作公司哪家好?精选推荐,选择不踩坑 - 软件测评师
  • 嵌入式导航模块设计:逆向工程与专用接口集成技术解析
  • 终极文件解压神器:500+格式一键搞定,从此告别“无法打开文件“的烦恼
  • 我们有 n 个篮子(对应 (x+h)^n 中的 n 个因子)