当前位置: 首页 > news >正文

神经网络中激活函数的作用

我们来系统地梳理一下激活函数在神经网络中的作用。

核心作用:引入非线性

这是激活函数最根本、最重要的作用。

  1. 没有激活函数的神经网络是什么样的?
    假设你有一个多层神经网络,但所有层都是线性的(即没有激活函数)。那么,无论你堆叠多少层,整个网络的最终输出都只是输入的一个线性组合

    例如:

    • 第一层:output1 = W1 * input + B1 (线性)
    • 第二层:output2 = W2 * output1 + B2 (线性)
    • ...
    • 最终输出:final_output = Wn * ... * W2 * W1 * input + (Wn * ... * W2 * B1 + ... + Wn * Bn-1 + Bn)

    你可以把 Wn * ... * W2 * W1 看作一个新的权重矩阵 W_total,把后面一长串偏置项看作一个新的偏置 B_total。所以,整个复杂的多层网络等价于一个简单的单层线性模型:final_output = W_total * input + B_total

    这样的模型无法学习数据中的非线性关系,比如图像中的边缘、纹理,语音中的音调变化,或者文本中的语义关联。它的表达能力和一个简单的线性回归模型没有区别。

  2. 激活函数如何解决这个问题?
    激活函数通过对线性层的输出进行一个非线性变换,打破了这种线性关系。这使得神经网络能够学习和表示非常复杂的函数,从而能够处理现实世界中的复杂问题。

    • 举例:使用 ReLU 激活函数
      • 第一层:output1 = ReLU(W1 * input + B1) (非线性)
      • 第二层:output2 = ReLU(W2 * output1 + B2) (非线性)
      • ...

    现在,每一层的输出都经过了非线性扭曲,整个网络的行为不再是线性的。你堆叠的层数越多,网络能学习的函数就越复杂。

其他重要作用

除了引入非线性这个核心作用外,激活函数通常还扮演着其他几个关键角色:

  1. 控制梯度流动(避免梯度消失/梯度爆炸)

    • 梯度消失 (Vanishing Gradients):在训练深度网络时,梯度会从输出层反向传播到输入层。如果使用某些激活函数(如 Sigmoid),梯度值在传播过程中会变得越来越小,最终趋近于零。这会导致前面的层几乎无法学习。
    • 梯度爆炸 (Exploding Gradients):相反,梯度值也可能变得越来越大,导致数值溢出(NaN),使训练崩溃。
    • 现代激活函数的优势:像 ReLU 及其变体(Leaky ReLU, ELU 等)在很大程度上缓解了梯度消失问题。因为对于正数输入,ReLU 的导数是 1,使得梯度可以比较稳定地反向传播。
  2. 增加模型的稀疏性(以 ReLU 为例)
    ReLU 函数 f(x) = max(0, x) 会将所有负的输入值都变为 0。这意味着在网络中,会有大量的神经元输出为 0,即这些神经元在当前输入下是“休眠”的。

    • 好处
      • 计算效率:稀疏的激活可以减少后续层的计算量。
      • 特征选择:模型会自动学会只激活对当前任务有用的特征,提高了模型的可解释性和泛化能力。
  3. 将输出映射到特定范围(用于特定任务)

    • Sigmoid 函数:将输出值压缩到 (0, 1) 的范围内。这非常适合二分类任务的输出层,表示某个类别的概率。
    • Softmax 函数:将输出值映射为概率分布,所有输出值的和为 1。这是多分类任务输出层的标准选择。

常见的激活函数

这里列举几个你会经常遇到的激活函数:

函数 特点 适用场景
Sigmoid 将输出压缩到 (0, 1),易导致梯度消失 二分类输出层
Tanh 将输出压缩到 (-1, 1),比 Sigmoid 中心对称 曾经用于 RNN,现在较少用
ReLU max(0, x),计算简单,缓解梯度消失 隐藏层的首选
Leaky ReLU max(αx, x) (α很小),解决 ReLU 死亡神经元问题 隐藏层
ELU 指数线性单元,兼具 ReLU 和 Tanh 的优点 隐藏层
Softmax 输出概率分布 (和为 1) 多分类输出层

总结

激活函数是神经网络的“灵魂”,它通过引入非线性,让神经网络从一个简单的线性模型变成了一个强大的、能够学习复杂模式的工具。同时,它还在控制梯度流动、增加模型稀疏性和实现特定任务输出等方面发挥着关键作用。选择合适的激活函数是构建高效神经网络的重要步骤之一。

http://www.gsyq.cn/news/47680.html

相关文章:

  • 【原理到实战】实验异质性分析
  • 最近学习到的一些基础知识
  • 基于LMS与RLS的自适应回声消除滤波
  • 2025年气密门窗实力厂家权威推荐榜单:折叠门窗/折叠门窗/断桥铝门窗源头厂家精选
  • 2025 年 11 月建筑木方厂家推荐排行榜,建筑木方/模板木方/桥梁木方/樟松工地木方/防腐建筑木方/烘干建筑木方/松木木方/辐射松木方/铁杉木方公司推荐
  • 2025 年 11 月防腐木厂家推荐排行榜,碳化防腐木/花旗防腐木/南方松防腐木/辐射松防腐木/菠萝格防腐木,室内装修与建筑防腐木公司推荐
  • 补题若干(5)
  • 分享工具
  • 贺州西林瓶灌装轧盖机洁净车间防二次污染要点
  • 2025年北京工程咨询合作机构权威推荐榜单:造价咨询/工程咨询服务/工程造价咨询源头机构精选
  • 视频汇聚平台EasyCVR:构建通信基站“可视、可管、可控”的智慧安防体系
  • 习题解析之:用户登录C
  • C# winform快速自适应布局
  • 实验2 熟悉常用的HDFS操作 通过编程和Shell命令
  • 张家口西林瓶灌装线带废料回收报价
  • 基于DNA编码与混沌系统的图像加密
  • windows键盘显示软件
  • Canvas简单整理 - sk
  • CPU softlockup(软锁定)
  • vue网站禁止右键以及禁止打开控制台,检测到控制台停止运行
  • 11.11 CSP-S 模拟赛 T3. square
  • locust高级特性详解
  • 11月12日打卡
  • Java中将String字符串转换为算术表达式并计算
  • 按钮固定在底部
  • locust基础
  • 办公楼设计多少钱一平?广州办公楼设计收费标准
  • 完整教程:Redis GEO 模块深度解析:从原理到高可用架构实践
  • 2025/11/8
  • 2025年广州到吉尔吉斯斯坦海运公司权威推荐榜单:广州到吉尔吉斯斯坦运输/广州到吉尔吉斯斯坦双清门到门/广州到吉尔吉斯斯坦双清源头公司精选