当前位置：首页 > news >正文

神经网络之Softmax激活函数求导过程 - 指南

news 2026/6/11 0:23:48

一、Softmax 函数的定义

给定一个输入向量：

$\mathbf{z} = [z_1, z_2, ..., z_n]^\top$

Softmax 函数将其变换为一个输出向量（概率分布）：

$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}} \quad \text{for } i = 1, ..., n$

这是一个向量函数，将实数向量映射为每个元素在 (0, 1) 之间，且总和为 1。

二、目标：求导

大家要推导的是：

$\frac{\partial \sigma(\mathbf{z})_i}{\partial z_k}$

也就是说：
Softmax 输出第 $i$ 个分量对输入向量第 $k$ 个分量的偏导数。

三、对两种情况分别推导

✅ 情况 1：当 $i = k$ （对自己求导）

大家记 Softmax 输出为 $s_i$ ：

$s_i = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}}$

利用商法则：

$\frac{\partial s_i}{\partial z_i} = \frac{e^{z_i} \cdot \sum_j e^{z_j} - e^{z_i} \cdot e^{z_i}}{(\sum_j e^{z_j})^2} = \frac{e^{z_i}(\sum_j e^{z_j} - e^{z_i})}{(\sum_j e^{z_j})^2}$

整理一下：

$\frac{\partial s_i}{\partial z_i} = s_i (1 - s_i)$

✅ 情况 2：当 $\ne k$ （对别的分量求导）

$\frac{\partial s_i}{\partial z_k} = \frac{0 \cdot \sum_j e^{z_j} - e^{z_i} \cdot e^{z_k}}{(\sum_j e^{z_j})^2} = -\frac{e^{z_i} e^{z_k}}{(\sum_j e^{z_j})^2} = -s_i s_k$

四、结果：Jacobian 矩阵形式

我们将所有偏导组织成一个 Jacobian 矩阵 $\in \mathbb{R}^{n \times n}$ ，有：

$$
J_{ik} = \frac{\partial s_i}{\partial z_k} =
\begin{cases}
s_i (1 - s_i), & \text{if } i = k \

s_i s_k, & \text{if } i \ne k
\end{cases}
$$

也能够写成矩阵形式：

$\frac{\partial \boldsymbol{s}}{\partial \mathbf{z}} = \text{diag}(\boldsymbol{s}) - \boldsymbol{s} \boldsymbol{s}^\top$

$diag(s)\text{diag}(\boldsymbol{s})$ 是以 $s_i$ 为对角元素的对角矩阵
$ss⊤\boldsymbol{s} \boldsymbol{s}^\top$ 是外积（得到一个 rank-1 的矩阵）

五、在神经网络中的用法

常见组合：Softmax + CrossEntropy（交叉熵损失）

在多分类神经网络中，常见组合是：

最后一层利用 Softmax 输出概率
损失函数运用交叉熵 Loss

这种组合在反向传播时有非常好的性质，导数公式变得非常简单：

$∂Loss∂zi=y^i−yi \frac{\partial \text{Loss}}{\partial z_i} = \hat{y}_i - y_i$

$y^i\hat{y}_i$ ：Softmax 输出
$y_i$ ：真实标签（one-hot）

这就是为什么框架（如 PyTorch）中提供 CrossEntropyLoss 是直接整合了 Softmax + Log + NLLLoss。

✅ 总结表：Softmax 求导

项目	内容
函数定义	$si=ezi∑jezjs_i = \frac{e^{z_i}}{\sum_j e^{z_j}}$
对自己求导	$∂si∂zi=si(1−si)\frac{\partial s_i}{\partial z_i} = s_i (1 - s_i)$
对他人求导	$∂si∂zk=−sisk\frac{\partial s_i}{\partial z_k} = -s_i s_k$
Jacobian 矩阵	$\text{diag}(s) - s s^\top$
应用	多分类输出层、交叉熵损失的梯度计算

http://www.gsyq.cn/news/22570.html

相关文章：

关于卷积神经网络（CNN）的入门学习报告

【记录】Ubuntu｜Ubuntu服务器挂载新的硬盘的流程（开机自动挂载） - 指南

10月16日日记

为 .NET 10 GC（DATAS）做准备

LLM学习记录DAY3

二进制警报器

常见问题处理 --- win卡任务栏设置无法打开桌面重启

虚拟线程的pinned问题终于被jdk25完美解决了

P4168 [Violet] 蒲公英题解

VGG使用块的网络

使用SpringBoot + Thymeleaf + MyBatisPlus实现一个简单的书籍管理系统

P2605 [ZJOI2010] 基站选址

kafka连接认证

vue学习的总结

【28】C# WinForm入门到精通 ——多文档窗体MDI【属性、强大的方法、实例、源码】【多窗口重叠、水平平铺、垂直平铺、窗体传值】

第五周预习

2025 非标门/铸铝门/别墅大门厂家推荐榜：聚焦品质与服务的实力之选

工业数字化未来：IT与OT融合实践

阅读《记录一类分治方法》笔记

实验指导-基于阿里云Serverless应用引l擎SAE的服务部署迀移 - 详解

夜莺监控设计思考（二）边缘机房架构思考

德州东站换乘攻略（仅供参考）

macOS 双开/多开微信WeChat完整教程（支持 4.X 及以上版本） - 实践