当前位置: 首页 > news >正文

分类概念 - -一叶知秋

“机器学习分类”(Machine Learning Classification)是机器学习中的一个监督学习任务,它的目标是让模型根据输入数据预测所属的类别(class)或标签(label)。简单来说,就是“根据已知样本的经验,判断新样本属于哪一类”。


🧠 一、分类的基本概念

概念 说明
输入(Feature) 样本的特征,如图片像素、身高体重、文本词频等
输出(Label) 类别,如“猫/狗”、“通过/未通过”、“正面/负面”
目标 学习一个函数 f(x),能对新样本 x 输出正确类别 y

如何区分哪个 class 是哪个呢

image-20251023110850660

用向量表示

image-20251023111011293

当把回归的一个输出改成多个输出,就是分类

🧩 二、常见分类类型

类型 示例 特点
二分类 (Binary Classification) 垃圾邮件识别(垃圾 or 非垃圾) 只有两类
多分类 (Multi-class Classification) 手写数字识别(0–9) 多于两类,且互斥
多标签分类 (Multi-label Classification) 一张图里可同时有“猫”和“狗” 可属于多个类别
层次分类 (Hierarchical Classification) “动物 → 哺乳类 → 猫科” 分类有层次结构

🔧 三、常见算法

算法 简介 优缺点
逻辑回归 (Logistic Regression) 基于线性模型的概率分类器 简单快速,适合线性可分
K近邻 (KNN) 看最近的K个样本类别 简单但计算慢
决策树 (Decision Tree) 基于特征划分构造树 可解释性强,易过拟合
随机森林 (Random Forest) 多棵树投票 准确率高,鲁棒性好
支持向量机 (SVM) 寻找最大间隔超平面 适合中小数据集
朴素贝叶斯 (Naive Bayes) 基于概率的分类器 快速,对文本分类有效
神经网络 / 深度学习 模拟人脑神经元结构 精度高但需大量数据

🧠 一、Softmax 的定义

$Softmax $ 是一种归一化函数,它可以把一组任意实数(logits)转化为一组 概率分布(各值之和为 1)。
设模型输出为一个向量:

$z=[z1,z2,…,zK]$

$Softmax $ 函数定义为:

$\text{Softmax}(z_i) = \frac{e{z_i}}{\sum_{j=1} e^{z_j}}$

其中 K 是类别数。


🧩 二、Softmax 的作用

Softmax 的主要作用:

  1. 将模型的原始输出(logits)映射成概率;
  2. 概率总和为 1;
  3. 概率最大的类别就是模型的预测结果。

例子:

类别 原始输出 ziz_izi Softmax 概率
猫 🐱 2.1 $e2.1/(e2.1+e1.2+e0.5) ≈ 0.63$
狗 🐶 1.2 ≈ 0.23
鸟 🐦 0.5 ≈ 0.14

所以模型预测 “猫” 的概率最高。


⚙️ 三、Softmax 的性质

性质 说明
非负性 每个输出都 ≥ 0
归一性 所有输出概率之和 = 1
平滑性 输出对输入的微小变化敏感但连续
放大差异性 较大的 ziz_izi 会被指数放大,更容易接近 1

🧮 四、与交叉熵 (Cross Entropy) 一起使用

在分类任务中,Softmax 通常和 交叉熵损失函数 一起使用:

$L = - \sum_{i=1}^{K} y_i \log(\hat{y_i})$

其中:

  • $y_i $是真实标签(one-hot 编码),
  • $^\hat{y_i} $是 Softmax 输出的概率。

对于单样本(真实类别为 c):

$L = - \log(\hat{y_c})$

也就是只惩罚模型对真实类别的预测概率。

image-20251023105915456

损失函数有Mean Square Error 和 Crooss-entropy

image-20251023110225750

为什么常用Cross-entropy

Mean square Error 在lagre Loss的时候很平坦,很难更新参数(训练)

image-20251023110706630

🧪 四、分类模型的评估指标

指标 含义
准确率 (Accuracy) 预测正确样本数 / 总样本数
精确率 (Precision) 预测为正的样本中,实际为正的比例
召回率 (Recall) 实际为正的样本中,被预测为正的比例
F1值 (F1 Score) 精确率与召回率的调和平均值
ROC曲线 / AUC值 衡量模型区分能力

🧭 五、典型应用场景

  • 📧 邮件分类(垃圾邮件检测)
  • 📷 图像识别(猫狗分类、人脸识别)
  • 💬 文本情感分析(正面/负面)
  • 🏥 医疗诊断(良性/恶性)
  • 💳 信用卡欺诈检测
http://www.gsyq.cn/news/28187.html

相关文章:

  • 2025 年报警器经销商最新推荐排行榜:深度解析优质服务商,海湾 / 青鸟 / 利达等品牌优选,郑州安创消防实力领衔
  • 2025 年最新推荐灭火器维修公司权威榜单:覆盖干粉 / 水基 / 二氧化碳 / 七氟丙烷 / 锂电池灭火器维修,帮您选出专业可靠服务单位
  • 深入解析:机器学习——聚类算法
  • ASP.NET Core Blazor 路由配置和导航
  • 2025年常州健身房私教权威推荐榜:专业教练资质与个性化课程服务的口碑之选
  • 电脑没声音怎么办?4种方法快速修复电脑无声问题(实测有效)
  • 易基因:JAR (IF13):西农陈玉林团队多组学分析揭示绵羊早期胚胎发育的分子与表观遗传调控机制|项目文章
  • 2025 年一线门窗厂家最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年北京杜拉维特马桶公司最新推荐榜:聚焦企业专利技术、品质管控及知名客户合作案例的权威解析
  • 2025 年铝门窗厂家最新推荐榜:系统/智能/断桥/窄边/定制/全景/阳光房/隐框/隔声/防火铝门窗公司推荐
  • MATLAB实现蒙特卡洛法的10负荷点配电网可靠性计算
  • 可调恒压恒流直流电源的技术特性与应用价值分析
  • AI元人文:创新决策、躺平懒人与针砭机制(修订版)
  • 《性能之巅:洞悉系统、企业与云计算》笔记——应用程序
  • 2025年10月兰花油品牌推荐:全维度排行帮你锁定心头好
  • 2025年10月朝阳门粤菜馆对比榜:福宫等五家真实评测
  • 2025年10月朝阳门美食酒店推荐榜:福宫领衔五强对比评测
  • WPF开发库推荐
  • MyEMS 核心功能拆解:数据采集、能耗分析、智能调控如何落地?
  • 赋能未来测试英才:“测吧”一站式实训平台,为高校软件测试教学按下“加速键”
  • ​FAQ: 如何在 WPF 项目中强制指定统一输出目录并确保 VS 调试正常? - 教程
  • 10 23
  • 2025 年锚固剂生产厂家最新推荐排行榜:锚杆 / 矿用 / 树脂锚固剂实力企业深度解析
  • 2025年10月中国宝宝辅食品牌推荐榜:妈妈口碑对比榜
  • 小白指南(六)——在线安装minio存储系统(Linux版通用)
  • Kubernetes(K8S)中command和args区别
  • 2025 年真空泵维修厂家最新推荐榜:覆盖宁波杭州金华绍兴等城市优质厂家,全方位解析核心竞争力助企业精准选型
  • 《汽车行业Data+AI数智化转型白皮书》重磅发布!驱动车企智造升级
  • 2025年10月汽车衡厂家推荐排行榜:重庆赛宁特全维度评测
  • MyEMS 是什么?一文读懂企业能源管理系统的核心定位与应用场景