当前位置: 首页 > news >正文

零基础学AI人工智能:9.3 分类算法

承接上一篇回归算法的内容,本篇聚焦有监督学习的另一大核心任务 —— 分类任务。分类任务的目标是预测样本所属的离散类别,是机器学习中落地最广泛的任务范式之一。本篇将系统讲解 K 近邻、CART 决策树两类基础分类算法,梳理集成学习的核心思想,同时覆盖分类任务的评估指标体系与超参数优化方法。

一、K 近邻算法(KNN)

1.1算法概述

K 近邻(K-Nearest Neighbor, KNN)是典型的基于实例的懒惰学习算法,不存在显式的训练过程,训练阶段仅存储全部样本数据,预测阶段通过邻近样本的信息完成推理。该算法同时支持分类与回归两类任务:分类场景下通过多数投票确定样本类别,回归场景下通过邻近样本的均值输出预测值。

1.2距离度量

样本在特征空间中的邻近程度通过距离量化,最通用的度量方式为欧氏距离,即两个样本各维度特征差值的平方和开平方根,直观对应高维空间中两点的直线距离。
由于距离计算对特征量纲高度敏感,使用 KNN 前通常需要对特征做归一化或标准化处理,避免数值范围大的特征主导距离计算结果。

1.3执行流程

  1. 分类任务:首先计算待测样本与所有训练样本的距离,按距离升序排序,选取距离最近的 K 个样本,统计这 K 个样本的类别投票结果,得票最高的类别即为最终分类输出。
  2. 回归任务:前序距离计算与近邻筛选逻辑与分类一致,最终取 K 个近邻样本标签的均值作为预测结果。

1.4超参数优化

K 值是 KNN 的核心超参数,其取值直接决定模型的拟合状态:K 过小易受局部噪声干扰,引发过拟合;K 过大易忽略样本的局部分布规律,引发欠拟合。最优 K 值需要通过系统化调参确定。

工业界普遍采用网格搜索结合交叉验证的方案完成超参寻优:

  1. 交叉验证:将训练集等分为多份,轮流以其中一份作为验证集、其余作为训练集,重复多轮训练与评估,取多轮指标的均值作为该组参数的最终效果。该方法消除了单次数据划分的偶然性,评估结果更具统计可靠性。
  2. 网格搜索:枚举预设的超参数组合,结合交叉验证逐一评估每组参数的泛化能力,最终筛选出全局最优参数组合。在工程实现中,GridSearchCV 是该方案的标准封装工具。

二、CART 决策树

2.1算法概述

CART 全称为分类与回归树(Classification and Regression Tree),是一种二叉树形结构的决策模型,同时支持分类与回归两类任务。模型通过递归分裂特征空间形成层级决策规则,具备极强的可解释性,决策路径可完整追溯。

2.2树结构生成原理

CART 决策树的构建遵循严格的二分规则,核心流程如下:

  1. 强制二分分裂:每次节点分裂仅生成两个子节点,保证树结构的统一与计算的简洁性;
  2. 最优分裂选择:遍历所有特征与分裂点,选取能够最大化节点纯度提升的组合作为当前分裂方案;
  3. 递归生长:对每个子节点重复执行分裂逻辑,自顶向下逐层扩展;
  4. 叶子节点输出:分类场景输出类别判定,回归场景输出连续数值;
  5. 剪枝优化:通过裁剪冗余分支降低模型复杂度,缓解过拟合,提升泛化能力。

2.3算法特性

优势:

  1. 模型逻辑直观,决策规则可解释性强,便于业务侧理解与验证;
  2. 对数据分布无强假设,可同时处理数值型与类别型特征;
  3. 对异常值与缺失值具备一定的鲁棒性;
  4. 适用场景广泛,可覆盖绝大多数分类与回归需求。

局限性:

  1. 单棵决策树容易过度拟合训练数据,泛化能力受限;
  2. 训练数据的微小扰动可能导致树结构发生显著变化,模型稳定性不足;
  3. 贪心分裂策略仅能保证局部最优,无法得到全局最优的树结构。

2.4剪枝策略

剪枝是决策树优化的核心手段,通过简化树结构缓解过拟合,分为预剪枝与后剪枝两类:

  1. 预剪枝:在树的生长过程中提前终止分裂,例如限制树的最大深度、叶子节点最小样本数、分裂最小纯度增益等。其优势是计算效率高、训练资源开销小;缺点是存在提前终止的风险,可能陷入欠拟合。
  2. 后剪枝:先让决策树完全生长,再自底向上逐层评估,裁剪掉对泛化性能无增益的子树。其优势是剪枝精度更高、效果更优;缺点是全量生长阶段资源消耗大,训练成本更高。
    CART 算法通常采用代价复杂度剪枝(CCP)作为后剪枝方案,通过在损失函数中加入叶节点数量的惩罚项,平衡拟合精度与模型复杂度。

三、集成学习基础

3.1核心思想

集成学习的核心逻辑是组合多个弱学习器,构建一个泛化能力更强的强学习器。单个弱学习器的预测能力有限,但通过差异化的训练与合理的融合策略,能够同时降低偏差与方差,显著突破单模型的性能上限。

3.2两大技术范式

根据基学习器的生成方式,集成学习分为两条主流技术路线:

  1. Bagging 范式:并行训练多个相互独立的基学习器,最终通过投票(分类)或平均(回归)融合输出结果。代表算法为随机森林,通过样本自助采样与特征随机采样进一步增强基学习器的差异性,有效降低模型方差,缓解过拟合。
  2. Boosting 范式:串行迭代训练基学习器,每一轮重点拟合上一轮预测错误的样本,逐步叠加提升模型精度。代表算法包括 AdaBoost、GBDT、XGBoost 等。

四、分类任务评估体系

分类模型的效果量化基于混淆矩阵展开,通过细分不同类型的预测结果,衍生出多维度的评估指标。

4.1混淆矩阵

混淆矩阵定义了二分类场景下的四类预测结果:

  1. TP(真正例):正样本被正确判定为正例;
  2. FP(假正例):负样本被错误判定为正例;
  3. TN(真负例):负样本被正确判定为负例;
  4. FN(假负例):正样本被错误判定为负例。

4.2核心评估指标

  1. 准确率:预测正确的样本占总样本的比例,计算公式为(TP + TN) / (TP + TN + FP + FN)。该指标直观反映整体预测精度,但在样本类别不均衡场景下存在严重误导性。
  2. 精确率:预测为正例的结果中真实正例的占比,计算公式为TP / (TP + FP),衡量模型正例预测的准确性,适用于误判成本高的场景。
  3. 召回率:真实正例中被成功识别的比例,计算公式为TP / (TP + FN),衡量模型对正样本的覆盖能力,适用于漏判成本高的场景。
  4. F1 值:精确率与召回率的调和平均值,计算公式为2 ×精确率 × 召回率 / (精确率 + 召回率)。该指标综合平衡了精确率与召回率,是类别不均衡场景下的核心评估标准。

五、逻辑图

http://www.gsyq.cn/news/1576666.html

相关文章:

  • 2026黄石漏水检测维修本地口碑防水商家榜单:厨卫/阳台/屋面/地下室渗漏水维修,持证施工+明码实价,防水补漏公司TOP5推荐 - 即刻修防水
  • 2026年更新:浙江骑行眼镜优质厂商综合解析与选型指南 - 品牌鉴赏官2026
  • 深度学习自动微分技术深度解析:从计算图到可微编程的梯度传递核心原理与工程实践
  • 上海离婚纠纷律师联系方式推荐 资深跨域办案律师和昊云详解 - 外贸老黄
  • 节点启动失败全解析:从环境配置到K8s就绪的排查指南
  • Anaconda安装2026版
  • LangChain 实战指南:从基础调用到稳定运行
  • 2026鄂州防水补漏避坑指南:卫生间/厨房/阳台/屋顶/地下室漏水检测维修全攻略,正规施工+透明报价+口碑榜靠谱服务商推荐 - 安佳防水
  • 成都钢材批发|四川本地钢材现货供应商|型材板材管材一站式采购 - 四川盛世钢联营销中心
  • 【模板分享】苹果cmsv10仿韩剧tv模板好看简约的纯色模板影视模板自适应手机端苹果cms视频网站源码
  • Late Fusion神经算子:提升PDE求解泛化性与可解释性的架构设计
  • 国产替代优选:实验室三维光学轮廓仪推荐
  • 什么是全链路可观测?全链路可观测包括哪些关键技术?
  • 2026年当下,企业如何联系专业民商事纠纷法律服务?广东晟典律师事务所邓远峰律师团队解析 - 品牌鉴赏官2026
  • 3D点云检测:多尺度注意力机制如何解决稀疏与无序挑战
  • 深圳离婚纠纷律师联系方式推荐 专业处理大额财产抚养权纠纷 - 外贸老黄
  • UniCon:基于谱更新的高效对比学习对齐方法解析与实践
  • 2026行业内靠谱的税务犯罪刑事律师口碑推荐 - 品牌排行榜
  • 天津遗产继承律所联系方式推荐 京津冀跨区域继承纠纷处理参考指南 - 外贸老黄
  • 恶劣天气下多模态全景分割技术:原理、挑战与URVIS 2026实战解析
  • 2026鹰潭漏水检测维修精选优质服务商TOP5推荐!卫生间漏水/厨房漏水/屋顶天花板漏水/阳台漏水/地下室漏水防水补漏检测维修-正规防水补漏公司优选口碑榜测评推荐 - 即刻修防水
  • 2026鹰潭漏水检测维修本地口碑防水商家榜单:厨卫/阳台/屋面/地下室渗漏水维修,持证施工+明码实价,防水补漏公司TOP5推荐 - 即刻修防水
  • 2026年现阶段,探寻湖北新型悬挑工字钢领域优质服务商的联系之道 - 品牌鉴赏官2026
  • 理解 LLM 的无状态架构:从原理到实践
  • 2026黄冈漏水检测维修本地口碑防水商家榜单:厨卫/阳台/屋面/地下室渗漏水维修,持证施工+明码实价,防水补漏公司TOP5推荐 - 即刻修防水
  • 二次元发卡系统终极指南:打造专业虚拟商品交易平台
  • MongoDB电商订单建模与Windows本地实战指南
  • 跟着 MDN 学无障碍 Day 8:WAI-ARIA 实战技能测试解析
  • 2026年河南电池级柠檬酸优质供应商盘点:崟生化工等企业深度解析 - 品牌鉴赏官2026
  • 【置顶必读】博主自我介绍,源码领取看这里