当前位置：首页 > news >正文

深度学习优化器演进之路：从SGD到Adam的核心思想与实战选择

news 2026/6/30 16:06:50

1. 优化器的前世今生：为什么我们需要更好的梯度下降

第一次接触深度学习时，你可能和我一样被各种优化器搞得晕头转向。记得2013年我刚入行时，大家都在用最基础的SGD（随机梯度下降），调参调得怀疑人生。后来随着研究的深入，才明白每种优化器的出现都是为了解决前一代的特定问题。

想象你正在山区徒步，SGD就像蒙着眼睛走路，只能靠脚下的坡度判断方向。Momentum相当于给你加了个惯性，让你不会因为突然的小坡改变方向。而Adam这样的现代优化器，则像是配备了GPS和地形图的智能导航系统。

优化器的本质是解决两个核心问题：方向和步长。方向决定了参数往哪更新，步长决定了每次更新多少。早期的SGD对这两个问题处理得很粗糙，后续的改进都是围绕这两个维度展开的。

在CV（计算机视觉）任务中，我们常处理高维稀疏梯度；NLP（自然语言处理）任务则面临梯度爆炸/消失问题。不同场景需要不同的优化策略，这也是为什么我们需要了解各种优化器的特性。

2. 从SGD到Momentum：给优化加上惯性

2.1 最基础的SGD与其局限性

SGD的更新公式简单得令人发指：

w = w - learning_rate * gradient

我在早期项目里经常遇到这些问题：在平坦区域进展缓慢（学习率太小），在陡峭区域又容易震荡（学习率太大）。更糟的是遇到鞍点时，所有维度的梯度都接近零，优化完全停滞。

批量变体的选择也很关键：

BGD（批量梯度下降）：计算整个数据集的梯度，稳定但慢
SGD（随机梯度下降）：每次一个样本，快但震荡大
MBGD（小批量梯度下降）：折中方案，实际最常用

实测发现，当batch size设为32-256时，MBGD在大多数情况下表现最佳。但即使这样，SGD在复杂非凸函数上还是容易陷入局部最优。

2.2 Momentum的物理直觉

Momentum的灵感来自物理学中的动量概念：

velocity = momentum * velocity + (1 - momentum) * gradient w = w - learning_rate * velocity

这个简单的改动带来了两个神奇效果：

在梯度方向一致的维度上加速（动量累积）
在梯度方向变化的维度上减速（动量抵消）

我在训练ResNet时做过对比：相同条件下，Momentum SGD的收敛速度比普通SGD快2-3倍。特别是在处理病态条件问题时（某些维度梯度远大于其他维度），Momentum的表现尤其出色。

有个实用技巧：初始阶段用0.5的动量系数，后期逐步增加到0.9。这样早期可以快速探索，后期稳定收敛。

3. 自适应学习率时代：Adagrad与RMSProp

3.1 Adagrad的参数专属学习率

Adagrad的核心思想很直观：给频繁更新的参数小学习率，给罕见更新的参数大学习率。其更新规则：

cache += gradient**2 w -= learning_rate * gradient / (np.sqrt(cache) + eps)

这个算法在稀疏数据上表现惊艳。我曾在推荐系统项目中使用它，相比SGD获得了15%的精度提升。因为推荐系统的特征极度稀疏（比如用户ID），Adagrad能自动给稀疏特征分配更大的更新幅度。

但Adagrad有个致命缺陷：随着cache不断累积，学习率会单调递减到接近零。这导致后期训练几乎停滞，特别是在长期训练的大型模型上。

3.2 RMSProp的滑动平均改进

RMSProp通过引入衰减系数解决了Adagrad的学习率消失问题：

cache = decay_rate * cache + (1 - decay_rate) * gradient**2 w -= learning_rate * gradient / (np.sqrt(cache) + eps)

这个改进看似微小，实际效果显著。我在LSTM语言模型上的实验显示，RMSProp的训练曲线更加平滑，最终困惑度比Adagrad低10%左右。

调参时有个经验法则：decay_rate通常设为0.9-0.99。对于非常嘈杂的任务（如强化学习），可以用更小的值（如0.5）来快速遗忘早期梯度。

4. Adam：两全其美的终极方案？

4.1 Adam的核心机制

Adam可以看作是Momentum和RMSProp的私生子：

# 动量项 m = beta1 * m + (1 - beta1) * gradient # 自适应项 v = beta2 * v + (1 - beta2) * gradient**2 # 偏差修正 m_hat = m / (1 - beta1**t) v_hat = v / (1 - beta2**t) # 更新 w -= learning_rate * m_hat / (np.sqrt(v_hat) + eps)

这个设计巧妙结合了两家之长：

动量项解决梯度方向问题
自适应项解决学习率问题
偏差修正解决初始偏差问题

我在BERT微调任务中对比发现，Adam比SGD快3倍达到相同准确率。特别是在训练初期，Adam的loss下降曲线明显更陡峭。

4.2 Adam的潜在缺陷与变种

但Adam并非完美无缺。2017年ICLR的论文指出，Adam在某些任务上可能无法收敛到最优解。我本人在图像生成任务中也遇到过Adam最终性能不如SGD的情况。

这时可以考虑这些变种：

AdamW：解耦权重衰减，更适合Transformer
NAdam：引入Nesterov动量，更稳定
AMSGrad：解决非凸问题中的收敛问题

对于CV任务，我的经验法则是：先用Adam快速收敛，后期换SGD微调。而在NLP任务中，AdamW通常是首选。

5. 实战选择指南：什么情况下用什么优化器

5.1 不同任务的优化器选择

计算机视觉（CNN架构）：

大型数据集：初始用Adam，后期转SGD+Momentum
小型数据集：全程使用Adam
GAN训练：交替使用Adam（生成器）和SGD（判别器）

自然语言处理（Transformer架构）：

BERT/RoBERTa：AdamW是标配
RNN/LSTM：RMSProp或Adam
机器翻译：Adam初始训练，SGD微调

强化学习：

离散动作空间：RMSProp
连续动作空间：Adam
稀疏奖励：考虑Adagrad

5.2 调参经验分享

经过数十个项目实践，我总结出这些经验：

学习率是最关键的参数，建议用学习率预热（warmup）
Adam的beta1通常保持0.9，beta2可以尝试0.999或0.98
批量较大时（>1024），适当提高学习率
遇到震荡时，尝试梯度裁剪（gradient clipping）
验证集表现波动大时，降低学习率或换用SGD

具体到代码实现，PyTorch中的优化器使用示例：

# AdamW示例 optimizer = AdamW(model.parameters(), lr=5e-5, betas=(0.9, 0.999)) # 带warmup的SGD optimizer = SGD(model.parameters(), lr=0.1, momentum=0.9) scheduler = LambdaLR(optimizer, lr_lambda=lambda epoch: min(epoch/10.0, 1.0))