1. 定位导航第 43 篇我们看到 BPTT 通过乘积链反向传播——这就埋下了 RNN训练困难的根源。Goodfellow 的尖锐警示:{Bengio1994ITNN} 的实验表明,当增加需要捕获的依赖关系的跨度,基于梯度的优化变得越来越困难,SGD 在长度仅为 10 或 20 的序列上成功训练传统 RNN 的概率迅速变为 0。→ 这就是为什么 LSTM/GRU 必须存在,以及 Transformer 最终取代 RNN 的根本原因。本篇深入剖析这个问题,并讨论传统解决方案。2. 问题的数学根源2.1 简化的线性 RNN去掉非线性,先考虑最简形式:h(t)=W⊤h(t−1)\mathbf{h}^{(t)} = \mathbf{W}^\top \mathbf{h}^{(t-1)}