当前位置: 首页 > news >正文

Transformer彻底剖析(11):多层感知机MLP

目录

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

2 李沐的MLP视频

2.1 感知机

2.1.1 感知机存在的问题

2.2 多层感知机

2.3 问题

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

3.2 Transformer 中 MLP(FFN)的作用

3.3 个人理解

4 注意力机制参数和MLP参数含量

参考文献:


abstract:

一般提到感知机默认是指单层的最简单的感知机,一般提到多层感知机默认是指包含了激活函数的多层感知机。

单层感知机只能解决线性可分问题,而异或属于线性不可分问题。

多层感知机就是使用隐藏层和激活函数得到非线性模型

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

网络中,注意力机制参数大约占1/3, MLP参数大约占用2/3

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

从这张图看,MLP就是线性层和激活函数。

2 李沐的MLP视频

2.1 感知机

这里最开始的感知机输出神经元只有一个,感知机其实就是个二分类问题,

跟线性回归的区别:线性回归输出的是实数,感知机的输出是离散的类

跟softmax回归的区别:softmax如果有n个类,就会输出n个元素,是个多酚类的问题。

2.1.1 感知机存在的问题

其实就是理解单层感知机就是只能拟合二分类问题,那么也就是线性拟合,没法拟合异或问题。

2.2 多层感知机

为什么需要非线性的激活函数:因为如果激活函数是线性的,那么输出跟输入的关系就还是线性的,那么最终结果就相当于是 一个单层的感知机,还是解决不了异或问题。

2.3 问题

一般来说一层是包含了激活函数的

通常来说一层是包含了权重以及激活函数的,就是这些计算是怎么做的,上图就可以说是两层,在这里输入层不算一层,

对于输入来说,有两种选择,

一种就是一个隐藏层,然后这个隐藏层包含了很多神经元,

还有一种是多个隐藏层,但是每个隐藏层的神经元稍微少一点,

他们两个的模型复杂度是差不多的,但是第二种更好训练,第一种特别容易过拟合,第一种相当于一口吃个胖子,第二种相当于循序渐进的去学习,比如把一个猫的图片和狗的图片,进行训练和学习,第二种相当于第一层学个耳朵,第二层学个尾巴,最后学会整个图像。

其实都差不多,区别不大。

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

一个标准的 Transformer Encoder Layer 主要包含两部分:

  1. 多头自注意力(Multi-Head Self-Attention, MHSA)

  2. 前馈全连接网络(Feed-Forward Network, FFN)

其中 FFN本质上就是多层感知机(MLP),通常形式是:

FFN(x)=GeLU(xW1+b1)W2+b2\text{FFN}(x) = \text{GeLU}(x W_1 + b_1) W_2 + b_2FFN(x)=GeLU(xW1​+b1​)W2​+b2​

  • 两层线性 + 非线性激活(GeLU / ReLU)

  • 对每个位置的 token 独立应用


3.2 Transformer 中 MLP(FFN)的作用

增加非线性表达能力

  • 注意力层本身是线性的(注意力是加权和)

  • 如果没有 MLP,Transformer只能做线性组合

  • MLP 让每个 token 的表示可以经过非线性变换 → 更强的表示能力


提供特征混合和高维映射

  • FFN 通常内部维度远大于输入维度(比如 512 → 2048 → 512)

  • 升维 → 非线性 → 降维

  • 作用类似于 “局部特征组合 / 投影到高维空间再压缩”,增强模型拟合复杂模式的能力


保持位置独立性(Token-wise)

  • 每个 token 独立经过 MLP,不同于注意力会跨 token 交互

  • 这样做可以在每个 token 内部增加复杂的非线性变换,同时注意力负责 token 间依赖


总结一句话(本质)

Transformer 的 MLP(FFN)就是多层感知机,负责每个 token 的非线性变换和高维特征组合,使模型具备更强的表达能力,弥补注意力层的线性限制。

3.3 个人理解

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

注意力机制只是处理了句子之间不同token的关联关系,他只是线性的,只有MLP引入非线性才能更好的理解复杂句子的含义。

4 注意力机制参数和MLP参数含量

不管是GPT,还是deepseek,还是通义,是不是mlp的参数反而是占大多数的对吗,是不是注意力参数大约1/3,MLP大约2/3

模型系列注意力机制参数占比MLP参数占比典型配置
GPT-3~33%~67%175B模型中,116B参数在MLP层
LLaMA-232-34%66-68%70B版本中MLP占46.2B参数
通义千问(Qwen)~33%~67%Qwen-Max每层FFN维度=4×隐藏维度
DeepSeek~33%~67%遵循标准Transformer设计原则

参考文献:

图解Transformer之MLP机制解读

什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮

10 多层感知机 + 代码实现 - 动手学深度学习v2

http://www.gsyq.cn/news/98705.html

相关文章:

  • P9345 夕阳西下几时回 解题报告
  • 本地部署开源可视化界面开发工具 Node-RED 并实现外部访问( Linux 版本)
  • 本地部署开源可视化界面开发工具 Node-RED 并实现外部访问( Windows 版本)
  • 实习面试题-ZooKeeper 原理面试题
  • U249090 密码门 私题题解
  • 【Vue3】 中 ref 与 reactive:状态与模型的深入理解
  • 双机并联虚拟同步发电机仿真模型:均分负载与优质波形输出,可拓展自适应与光伏储能技术
  • Grep 例程大全
  • 网页前端如何通过JSP实现大文件秒传功能?
  • Ursa.Avalonia样式系统终极指南:5大技巧助你构建企业级UI
  • Asio应用(高级):构建高性能、安全、跨平台的网络系统
  • 实习面试题-Spark SQL 面试题
  • CF1619G Unusual Minesweeper 解题报告
  • 基于vue的个人博客论坛交流网站_sdj10346_springboot php python nodejs
  • 如何使用yolov11训练使用—番茄炭疽病与品质检测数据集 炭疽病症状识别、病害区域检测、成熟果实与腐烂果实区分 目标检测 4类 可直接用于模型训练 YOLO适用的txt格式
  • 四旋翼无人机PID控制仿真模型探索
  • JAVA中如何利用JSP实现视频文件的分片上传?
  • 列出自己网站音频书籍资源方法附php代码
  • 隐式转换,强制转换,字符串,字符的加操作
  • .NET进阶——深入理解Lambda表达式(2)手搓LINQ语句
  • Android中Compose系列之按钮Button
  • wangEditor支持pdf书签目录结构导入功能
  • Agent 结构(LLM + Tool + Executor)
  • 红米10x将一键清理和锁屏加到桌面步骤
  • 台达DVPEH3系列PLC与欧姆龙E5CC温控器通讯及控制实现
  • 192KHz 双声道输入 24 位 AD 转换器国产品牌DP8340兼容CS5340
  • Cameralink采集卡软件EspeedGrab使用讲解:3 保存采集参数
  • XPM与IP模式下FIFO的比较
  • MySQL数据处理(增删改)
  • 电科毕设 stm32 wifi远程可视化与农业灌溉系统(源码+硬件+论文)