当前位置：首页 > news >正文

Proximal SFT：用PPO强化学习机制优化SFT，让大模型训练更稳定

news 2026/5/28 20:29:12

监督微调（SFT）基本上是现在训练大模型时必走的路。不管你要让模型干什么，先用 SFT 让它学会基本的指令跟随和对话能力，然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。

但 SFT 有个老毛病：容易过拟合。模型会死记硬背训练数据，泛化能力变差。更要命的是，经过 SFT 训练的模型在后续的强化学习阶段往往探索能力不足，这就是所谓的"熵坍塌"现象 - 模型变得过于确定，生成的内容单调乏味。

这篇论文提出了 Proximal Supervised Fine-Tuning (PSFT)，本质上是把 PPO 的思路引入到 SFT 中。这个想法挺巧妙的：既然 PPO 能够稳定策略更新，那为什么不用类似的机制来稳定监督学习的参数更新呢？

https://avoid.overfit.cn/post/e933ddbf941a4530b7bf09782c70bbea