当前位置: 首页 > news >正文

线性回归与 Softmax 回归核心内容总结 - 教程

一、线性回归:解决连续值预测困难

1. 核心概念与应用场景

线性回归是用于连续值预测的基础模型,典型应用为房价预测:通过房屋的卧室数量、停车空间、周边学校等特征(输入),估算房屋价格(连续输出值),核心是建立输入特征与输出连续值之间的线性映射关系。

2. 模型表达式

  • 单个样本:表达式为 \(y = w^T x + b\),其中 x 为输入特征向量,w 为权重向量(衡量各特征对输出的影响),b 为偏置项(修正模型基准),y 为预测输出。
  • 多个样本:可简化为矩阵形式 \(y = Xw + b\),X 为样本特征矩阵(每行对应一个样本的特征),提高计算效率。
  • 神经网络视角:线性回归可看作单层神经网络,仅包含输入层(接收特征 \(x_1,x_2,...x_d\))和输出层(输出预测值 y),输出层神经元依据权重 \(w_1,w_2,...\) 与输入层连接。

3. 训练核心:优化与超参数

  • 损失函数:用于衡量预测值与真实值的差距,是模型优化的目标(需最小化),线性回归常用平方损失(L2 损失),即预测值与真实值差值的平方。
  • 优化算法:核心为梯度法,经过计算损失函数对参数(w 和 b)的梯度,沿梯度反方向更新参数(因梯度反方向是函数值下降最快的方向),逐步降低损失。
    • 随机梯度下降(SGD):每次随机选取部分样本计算梯度并更新参数,平衡计算效率与优化效果,是深度学习常用基础算法。
    • 小批量随机梯度下降:SGD 的改进版,每次选取 “小批量” 样本(而非单个或全部样本)计算梯度,核心是合理选择 “批量值”:过小则无法充分利用计算资源,过大则浪费资源且降低更新灵活性。
  • 关键超参数
    • 学习率:控制参数更新的步长,需合理设置 —— 过大会导致参数更新不稳定(难以收敛到最小值),过小则会使模型训练速度过慢。
    • 批量大小:小批量随机梯度下降中每次选取的样本数量,需在计算效率与优化效果间平衡。

二、Softmax 回归:解决多类别分类问题

1. 核心定位与应用场景

Softmax 回归是多类别分类的基础模型,区别于线性回归的 “连续值预测”,其目标是预测样本属于多个离散类别的概率(如手写数字识别(10 类)、ImageNet 图像分类(1000 类)、维基百科恶语评论分类(7 类)等)。

2. 模型核心:从 “线性输出” 到 “概率分布”

  • 网络结构:本质是单层全连接神经网络,输入层接收样本特征,输出层神经元数量等于类别数量(如 10 类分类任务输出层设 10 个神经元),每个输出神经元对应一个类别的 “原始置信度”\(o_1,o_2,...o_k\)(k 为类别数)。
  • Softmax 运算:将输出层的原始置信度转换为符合概率分布的预测值(非负且总和为 1),公式为 \(y_i = \frac{\exp(o_i)}{\sum_{k}\exp(o_k)}\),其中 \(y_i\) 表示样本属于第 i 类的预测概率,最终取概率最大的类别作为预测结果。

3. 损失函数:交叉熵损失

由于 Softmax 回归输出为概率分布,平方损失(L2 损失)不再适用,核心采用交叉熵损失,公式为 \(H(p,q) = -\sum p_i \log(q_i)\),其中 p 是样本真实概率分布(如 “属于第 3 类” 则真实分布为 [0,0,1,...,0]),q 是模型输出的预测概率分布,交叉熵损失能更精准地衡量两个概率分布的差异,推动模型优化。

三、两类模型的核心差异

维度线性回归Softmax 回归
任务目标预测连续值(如房价、温度)预测多类别概率(离散分类)
输出形式单个连续数值多个类别概率(和为 1)
输出层设计1 个神经元神经元数量 = 类别数
核心运算线性映射(\(y=w^Tx+b\))线性映射 + Softmax 运算
常用损失函数平方损失(L2 损失)交叉熵损失
http://www.gsyq.cn/news/7527.html

相关文章:

  • P6631 [ZJOI2020] 序列 题解
  • 使用 libaudioclient 实现 Android Native层 音频测试工具
  • 03-初始化测试数据
  • 使用Windows客户端访问EDA环境的NFS共享
  • Day03-1
  • Java第三周课前思考
  • RWA技术规范解读:如何实现现实世界资产的合规代币化
  • 实用指南:Java 集合解析
  • 详细介绍:对于牛客网—语言学习篇—C语言入门—链表的题目解析
  • Day17Arrays类的初步认识
  • 服务器安装docker、mysql、redis、nginx、nacos、jdk等
  • 中了勒索病毒 peng
  • PolarFire SoC mpfs-mmuart-interrupt 多核通信
  • SAP FICO 完全凭证替代
  • 0voice-2.1.1-网络io与io多路复用select/poll/epoll
  • Java基本语句-分支语句
  • HyperWorks许可配置
  • AI --- LLM 之 模型大比拼
  • Java入门知识
  • 12 路低延迟推流!米尔 RK3576 赋能智能安防 360 环视
  • Xilinx DDR3仿真 DBG
  • 对马岛之魂
  • Ubuntu 22 下 DolphinScheduler 3.x 伪集群部署实录
  • 软件工程个人项目
  • P2216 [HAOI2007] 理想的正方形
  • 2-sat板子
  • Node.js 中使用 .env 文件管理环境变量
  • pythonjs逆向 破解滑动验证码 - hello-*
  • Bun:不仅是新的JavaScript运行时,并且重塑了JavaScript工具链
  • AI Agent 与 MCP 核心解析与企业级应用指南