当前位置：首页 > news >正文

第5课：机器学习的基本类型

news 2026/6/26 5:14:31

一、课程信息

课程主题：机器学习的基本类型
适合对象：人工智能零基础学习者
预计学习时长：2小时
学习方式建议：先理解“有没有标准答案”，再理解“要解决什么任务”

二、学习目标

学完本课后，你应该能够：

区分监督学习、无监督学习和强化学习。
理解分类、回归、聚类分别解决什么问题。
能判断常见AI任务属于哪种学习方式。
能用生活案例解释不同机器学习类型。
初步理解不同学习方式适合的应用场景和局限。

三、课程导入：机器学习不止一种学法

前面几课我们已经知道，机器学习是让机器从数据中总结规律。

但机器学习并不是只有一种方式。

不同任务的数据条件不同，学习目标也不同。

例如：

有些任务有明确答案，例如“这张图片是猫还是狗”。
有些任务没有明确答案，例如“把相似用户自动分组”。
有些任务需要在行动中不断试错，例如“游戏AI如何获得更高分”。

这就对应了机器学习中的几种基本类型：

监督学习、无监督学习、强化学习

本课会用生活案例解释这些概念，帮助你建立清晰框架。

四、先看一个总览

机器学习的基本类型可以先这样理解：

类型	是否有标准答案	学习方式	生活类比
监督学习	有	根据带答案的样本学习	老师批改作业
无监督学习	没有明确标准答案	自己发现数据中的结构	自己整理书架
强化学习	没有直接答案，但有奖励和惩罚	通过试错学习策略	训练宠物或玩游戏升级

需要注意：

监督学习、无监督学习、强化学习是“学习方式”；分类、回归、聚类是更具体的“任务类型”。

后面会分别讲清楚。

五、监督学习：有标准答案的学习

1. 什么是监督学习

监督学习是最常见的机器学习类型之一。

它的特点是：

训练数据中不仅有输入，还有对应的正确答案。

这里的正确答案通常叫“标签”。

例如：

输入数据	标签
一张猫的图片	猫
一张狗的图片	狗
一封广告邮件	垃圾邮件
一封工作邮件	正常邮件
一套房屋信息	成交价格

模型通过这些带答案的数据学习输入和答案之间的关系。

2. 生活类比：老师批改作业

监督学习像学生做有答案的练习题。

过程是：

学生做题。
老师给出正确答案。
学生发现自己哪里错了。
学生调整解题方法。
下次遇到类似题目做得更好。

机器学习中的模型也是类似过程：

模型预测 → 对比正确标签 → 发现误差 → 调整模型 → 再次预测

3. 监督学习适合什么问题

监督学习适合有历史数据和明确答案的问题。

例如：

垃圾邮件识别
猫狗图片识别
房价预测
用户是否会流失
评论是好评还是差评
贷款申请是否有风险
商品销量预测

4. 监督学习需要什么条件

监督学习通常需要：

足够多的样本
清晰准确的标签
数据和真实场景接近
明确的预测目标

如果标签质量差，模型就会被错误答案误导。

例如把正常邮件大量标成垃圾邮件，模型就可能误伤重要邮件。

六、监督学习中的分类问题

1. 什么是分类

分类是监督学习中非常常见的一类任务。

它要解决的问题是：

判断一个对象属于哪一类。

分类的输出通常是类别。

例如：

猫 / 狗
垃圾邮件 / 正常邮件
好评 / 差评
高风险 / 低风险
通过 / 不通过

2. 分类问题的例子

任务	输入	输出类别
垃圾邮件识别	邮件内容	垃圾邮件 / 正常邮件
情感分析	用户评论	好评 / 中评 / 差评
图片识别	图片	猫 / 狗 / 汽车 / 人
风险识别	交易记录	正常 / 可疑
疾病风险提示	检查数据	高风险 / 低风险

3. 二分类和多分类

如果只有两个类别，叫二分类。

例如：

是 / 否
垃圾邮件 / 正常邮件
通过 / 不通过

如果有多个类别，叫多分类。

例如：

图片识别为猫、狗、车、树、人
新闻分类为体育、财经、科技、娱乐
商品分类为服装、食品、家电、图书

4. 分类结果可能是概率

分类模型经常输出概率。

例如垃圾邮件识别：

垃圾邮件概率：92% 正常邮件概率：8%

系统可以根据概率决定怎么处理。

例如：

超过90%直接放入垃圾箱
60%-90%标记为可疑
低于60%放入收件箱

不同业务场景可以设置不同阈值。

七、监督学习中的回归问题

1. 什么是回归

回归也是监督学习中的常见任务。

它要解决的问题是：

预测一个连续数值。

这里的“回归”不是回到过去，而是预测数值。

例如：

预测房价是多少
预测明天销量是多少
预测用户下个月消费金额
预测气温
预测配送需要多少分钟

2. 回归和分类的区别

分类输出的是类别。

回归输出的是数值。

问题	类型	输出
判断邮件是否垃圾邮件	分类	垃圾邮件 / 正常邮件
预测一套房子价格	回归	300万元
判断评论是好评还是差评	分类	好评 / 差评
预测明天奶茶销量	回归	240杯
判断用户是否会流失	分类	会 / 不会
预测用户下月消费金额	回归	520元

3. 回归问题的生活例子

假设你要预测一家奶茶店明天能卖多少杯。

可能需要考虑：

星期几
天气
节假日
附近是否有活动
历史销量
是否有促销
温度高低

模型从历史数据中学习这些因素和销量之间的关系。

之后输入明天的情况，模型给出销量预测。

4. 回归结果通常不会完全准确

回归预测受很多因素影响。

例如房价预测受到市场、政策、装修、买卖双方心理等因素影响。

因此，回归模型给出的通常是估计值，而不是绝对真相。

在实际应用中，需要结合误差范围理解结果。

八、无监督学习：没有标准答案，让机器自己找规律

1. 什么是无监督学习

无监督学习的特点是：

数据中没有明确的标准答案，机器需要自己发现数据中的结构或规律。

例如，你有一批用户数据，但没有人提前告诉你每个用户属于哪一类。

模型可以尝试根据用户行为，把相似用户分到一起。

2. 生活类比：自己整理书架

假设你有一堆书，没有人告诉你应该怎么分类。

你可能会自己观察：

有些是小说
有些是教材
有些是历史书
有些是工具书
有些书尺寸相近
有些书主题相近

然后你按自己的规则把它们分组。

这就类似无监督学习。

它不是根据标准答案学习，而是从数据本身发现相似性和结构。

3. 无监督学习适合什么问题

无监督学习适合探索性问题。

例如：

用户分群
商品分组
异常检测
文档主题发现
相似图片聚集
客户行为模式分析

当我们还不知道数据中有哪些类别时，无监督学习很有用。

九、无监督学习中的聚类问题

1. 什么是聚类

聚类是无监督学习中最常见的任务之一。

它要解决的问题是：

把相似的对象自动分到同一组。

聚类没有提前给定标准答案。

模型只是根据数据相似性分组。

2. 聚类的例子

任务	输入数据	聚类结果
用户分群	浏览、购买、消费数据	高价值用户、价格敏感用户、新用户等
商品分组	商品标题、属性、销量	相似商品组
文档归类	大量文章	科技类、财经类、体育类等主题
图片整理	大量照片	风景、人像、食物等相似图片组

注意：

聚类后的组名通常需要人来解释。

模型可能只告诉你“这些用户比较相似”，但这些用户为什么相似、该叫什么名字，需要人结合业务理解。

3. 聚类和分类的区别

分类和聚类很容易混淆。

对比项	分类	聚类
是否有标签	有	没有
是否提前知道类别	通常知道	通常不知道
输出	指定类别	自动分组
学习类型	监督学习	无监督学习
生活类比	老师告诉你答案	自己观察后分组

4. 聚类的风险

聚类结果不一定天然正确。

因为模型只是根据数据相似性分组。

如果输入数据不合理，分组也可能没有意义。

例如把用户按“登录时间”分组，可能得到早上登录用户、晚上登录用户。

但这个分组是否对业务有价值，还需要人判断。

十、强化学习：通过奖励和惩罚学习策略

1. 什么是强化学习

强化学习是一种通过试错学习的方式。

它的特点是：

智能体在环境中采取行动，根据奖励或惩罚不断调整策略，目标是获得更高长期收益。

这里有几个关键词：

智能体：做决策的对象，例如游戏AI或机器人
环境：智能体所处的世界，例如游戏地图或真实房间
行动：智能体可以做的选择
奖励：行动后得到的反馈
策略：智能体选择行动的方法

2. 生活类比：训练宠物

训练宠物时，你可能会这样做：

做对动作，给奖励
做错动作，不给奖励或纠正
重复多次后，宠物更可能做出正确动作

强化学习也是类似思想。

模型不是直接拿到每一步的标准答案，而是通过奖励信号学习什么行为更好。

3. 游戏AI例子

以游戏AI为例。

AI可以选择：

向左走
向右走
跳跃
攻击
防守

如果它获得分数，就是奖励。

如果它失败或损失生命值，就是负面反馈。

经过大量尝试后，AI可能学会更好的游戏策略。

4. 强化学习适合什么问题

强化学习适合需要连续决策的问题。

例如：

游戏AI
机器人控制
自动驾驶中的部分决策
资源调度
广告投放策略优化
智能推荐策略优化

这些问题的特点是：

当前行动会影响未来结果。

例如游戏中现在选择进攻还是防守，会影响后续局面。

5. 强化学习的挑战

强化学习听起来很自然，但实际很复杂。

原因包括：

需要大量试错
试错成本可能很高
奖励设计很难
短期奖励和长期收益可能冲突
真实环境安全风险较高

例如自动驾驶不能在真实道路上随意试错。

因此很多强化学习训练需要先在模拟环境中进行。

十一、三种学习方式的对比

对比项	监督学习	无监督学习	强化学习
是否有答案	有明确标签	没有明确标签	没有直接答案，有奖励反馈
学习目标	学会输入到答案的关系	发现数据结构	学会行动策略
典型任务	分类、回归	聚类、异常发现	游戏策略、机器人控制
生活类比	老师批改作业	自己整理书架	通过奖励训练行为
适合场景	有历史答案的数据任务	探索数据规律	连续决策和试错优化
主要难点	标签质量	结果解释	奖励设计和试错成本

这张表是本课的核心。

如果你能用自己的话解释这三类学习方式，就已经掌握了机器学习入门中的重要框架。

十二、任务类型和学习方式不要混淆

初学者常见误区是把“监督学习”和“分类”当成同一个东西。

它们不是同一层级的概念。

可以这样理解：

学习方式：机器怎么学 任务类型：机器要解决什么问题

例如：

监督学习可以做分类，也可以做回归。
无监督学习常见任务是聚类。
强化学习关注的是策略学习和连续决策。

1. 学习方式

学习方式回答的是：

数据和反馈长什么样？

例如：

有标准答案：监督学习
没有标准答案：无监督学习
有奖励反馈：强化学习

2. 任务类型

任务类型回答的是：

最终要输出什么？

例如：

输出类别：分类
输出数值：回归
输出分组：聚类
输出行动策略：强化学习任务

十三、常见任务判断方法

判断一个机器学习任务，可以按两步走。

第一步：看有没有标准答案

问自己：

训练数据里有没有明确答案？

如果有，例如每封邮件都标注了“垃圾邮件”或“正常邮件”，通常是监督学习。

如果没有，只是给一堆用户行为数据，希望机器自己分组，通常是无监督学习。

如果没有每一步标准答案，但有奖励或惩罚，可能是强化学习。

第二步：看输出是什么

问自己：

模型最终要输出类别、数值、分组，还是行动？

如果输出类别，是分类。

如果输出数值，是回归。

如果输出分组，是聚类。

如果输出下一步行动或长期策略，可能是强化学习。

判断示例

任务	学习方式	任务类型
判断邮件是不是垃圾邮件	监督学习	分类
预测房价	监督学习	回归
把用户自动分成几类	无监督学习	聚类
训练游戏AI获得更高分	强化学习	策略学习
判断评论是好评还是差评	监督学习	分类
预测明天销量	监督学习	回归

十四、案例一：垃圾邮件识别

1. 问题描述

目标：

判断一封邮件是不是垃圾邮件。

2. 数据和标签

训练数据可能是：

邮件内容	标签
限时优惠，点击领取大奖	垃圾邮件
明天下午开项目会议	正常邮件
恭喜中奖，请填写银行卡	垃圾邮件
请查收本周工作总结	正常邮件

3. 学习方式和任务类型

它属于：

学习方式：监督学习
任务类型：分类

原因：

有标准答案，也就是垃圾邮件或正常邮件标签。
输出是类别，而不是数值。

4. 可能的风险

垃圾邮件识别不仅要看准确率。

还要关注两类错误：

垃圾邮件没有拦住
正常邮件被误判为垃圾邮件

在很多场景中，第二种错误可能更严重。

十五、案例二：房价预测

1. 问题描述

目标：

根据房屋信息预测房价。

2. 数据和标签

训练数据可能包括：

面积	位置	楼层	房龄	成交价格
90平米	市中心	12层	5年	450万元
70平米	郊区	6层	10年	180万元
120平米	学区附近	18层	3年	800万元

其中成交价格就是标签。

3. 学习方式和任务类型

它属于：

学习方式：监督学习
任务类型：回归

原因：

有历史成交价格作为答案。
输出是价格这个数值。

4. 为什么结果不可能完全准确

房价会受到很多因素影响：

市场变化
政策变化
装修情况
买卖双方心理
小区环境
数据是否及时

所以模型输出通常只能作为参考估计。

十六、案例三：用户分群

1. 问题描述

目标：

根据用户行为，把相似用户自动分成不同群体。

2. 数据情况

数据可能包括：

浏览商品类型
购买频率
平均消费金额
使用时长
活跃时间
是否参与促销
收藏和加购行为

通常没有人提前告诉模型：

这个用户一定属于A类，那个用户一定属于B类。

3. 学习方式和任务类型

它属于：

学习方式：无监督学习
任务类型：聚类

原因：

没有明确标签。
目标是把相似用户自动分组。

4. 聚类结果需要人解释

模型可能把用户分成三组。

但每组代表什么，需要业务人员分析。

例如：

第一组：高频高消费用户
第二组：只在促销时购买的用户
第三组：浏览很多但购买少的用户

这些名字不是模型天然知道的，而是人根据数据特征解释出来的。

十七、案例四：游戏AI训练

1. 问题描述

目标：

让游戏AI学会获得更高分或赢得比赛。

2. 学习方式

它通常属于强化学习。

原因是：

AI没有每一步的标准答案。
它需要不断尝试行动。
行动结果会带来奖励或惩罚。
目标是学到长期更优策略。

3. 奖励设计很重要

如果奖励只设计成“得分越高越好”，AI可能学到一些奇怪策略。

例如只追求短期得分，却忽略长期胜利。

奖励设计需要考虑：

短期收益
长期目标
安全限制
行为是否符合预期

4. 为什么强化学习难

强化学习需要大量尝试。

在游戏中试错成本较低，可以反复模拟。

但在真实世界中，比如机器人或自动驾驶，试错成本很高，甚至有安全风险。

十八、异常检测：一个容易混合的任务

异常检测是发现“不正常”的数据。

例如：

信用卡盗刷
设备故障
网络攻击
异常订单
异常登录

异常检测可能使用不同学习方式。

1. 有标签时：监督学习

如果历史数据明确标注了：

正常交易
欺诈交易

那么可以用监督学习做分类。

2. 没有标签时：无监督学习

如果没有明确欺诈标签，只知道大多数行为是正常的，就可以寻找和大多数数据差异很大的异常点。

这更接近无监督学习。

3. 这个例子的启示

同一个业务问题，不一定只有一种学习方式。

关键要看：

数据有没有标签
标签是否可靠
任务目标是什么
错误成本有多高

十九、选择学习方式时要考虑什么

1. 是否有标签

如果有大量可靠标签，监督学习通常是首选。

如果没有标签，但想探索数据结构，可以考虑无监督学习。

如果任务涉及连续行动和奖励反馈，可以考虑强化学习。

2. 标签成本高不高

有些标签很容易获得。

例如用户点击、购买、评分。

有些标签很贵。

例如医学影像标注需要专业医生。

标签成本会影响技术方案。

3. 错误成本有多高

不同场景错误成本不同。

例如：

推荐错一条视频，影响较小
误判一封重要邮件，影响较大
医疗诊断错误，影响很大
自动驾驶决策错误，风险极高

错误成本越高，越需要严格测试和人工审核。

4. 是否需要解释

有些场景需要知道模型为什么这样判断。

例如金融风控、医疗辅助、招聘筛选。

如果模型难以解释，可能难以直接用于高风险决策。

5. 数据是否会变化

如果数据变化很快，模型需要持续更新。

例如：

用户兴趣变化
市场价格变化
欺诈手段变化
网络流行语变化

模型不能训练一次就永远不管。

二十、初学者常见误区

误区1：无监督学习就是没有用的学习

不是。

无监督学习很适合探索数据结构。

例如企业不知道用户可以分成哪些群体时，聚类可以提供初步线索。

误区2：强化学习就是让AI随便试

不是。

强化学习需要设计环境、行动空间、奖励规则和安全限制。

没有合理设计，模型可能学到不符合预期的行为。

误区3：分类和回归都是监督学习，所以没有区别

它们都可以属于监督学习，但任务目标不同。

分类输出类别。

回归输出数值。

误区4：聚类结果一定是真实分类

聚类只是根据相似性分组。

分组是否有业务意义，需要人来解释和验证。

误区5：只要算法选对，数据质量就不重要

不对。

数据质量仍然非常关键。

错误标签、偏见数据、过时数据都会影响模型效果。

二十一、课堂活动：判断机器学习类型

活动目标

通过具体任务判断学习方式和任务类型。

活动任务

请判断下面任务属于哪种学习方式和任务类型。

任务	学习方式	任务类型	判断理由
根据历史成交数据预测房价
根据用户行为把用户分成几类
训练游戏AI获得更高分
判断一封邮件是否为垃圾邮件
根据评论判断用户情绪
根据天气预测明天奶茶销量
把大量新闻自动分成主题组

判断提示

先问：

有没有明确标准答案？
输出是类别、数值、分组，还是行动策略？
是否需要通过奖励和惩罚学习？

二十二、课堂活动：设计课程推荐任务

活动目标

把机器学习类型应用到实际问题中。

活动任务

设计一个“根据学习习惯推荐课程”的简单AI任务。

填写模板

问题	我的设计
目标用户是谁
要解决什么问题
需要哪些数据
有没有明确标签
可能属于哪种学习方式
可能输出什么结果
如何判断推荐是否有效
可能出现什么风险

可参考的数据

学习者年龄或年级
已学课程
学习时长
完课情况
练习正确率
收藏课程
课程评分
搜索关键词
学习目标

可能的推荐目标

推荐下一门课程
推荐复习内容
推荐练习题
推荐学习路径
推荐难度更合适的课程

二十三、本课小结

本课我们学习了机器学习的基本类型。

需要重点记住：

监督学习是有标准答案的学习，常用于分类和回归。
分类是判断对象属于哪一类。
回归是预测一个连续数值。
无监督学习没有明确标准答案，常用于发现数据结构。
聚类是把相似对象自动分到同一组。
强化学习通过奖励和惩罚学习行动策略。
学习方式回答“机器怎么学”，任务类型回答“机器要输出什么”。
同一个业务问题可能有多种建模方式，关键取决于数据、标签和目标。
聚类结果需要人解释，强化学习需要谨慎设计奖励。
选择机器学习方式时，要考虑标签、错误成本、解释性和数据变化。

二十四、课后练习

练习1：判断任务类型

请判断下面任务属于哪种学习方式和任务类型。

任务	学习方式	任务类型
预测明天商品销量
判断图片中是猫还是狗
把相似客户自动分组
训练机器人学会避开障碍物
判断用户评论是好评还是差评
预测外卖送达需要多少分钟
从大量文章中发现不同主题

练习2：区分分类和回归

请回答：

分类和回归最大的区别是什么？
“预测用户是否会流失”是分类还是回归？
“预测用户下个月消费金额”是分类还是回归？
为什么房价预测通常属于回归？

练习3：理解聚类

请回答：

聚类为什么通常属于无监督学习？
聚类结果为什么需要人来解释？
用户分群可以给业务带来什么帮助？
如果输入数据质量不好，聚类结果可能出现什么问题？

练习4：理解强化学习

请回答：

强化学习和监督学习最大的区别是什么？
为什么强化学习适合游戏AI？
奖励设计不合理可能带来什么问题？
为什么真实世界中的强化学习需要更谨慎？

练习5：设计一个机器学习任务

请选择一个生活或工作场景，设计一个机器学习任务。

问题	我的回答
我选择的场景
想解决的问题
输入数据是什么
是否有标签
学习方式是什么
任务类型是什么
输出结果是什么
可能的风险是什么

二十五、参考答案与提示

练习1参考答案

任务	学习方式	任务类型
预测明天商品销量	监督学习	回归
判断图片中是猫还是狗	监督学习	分类
把相似客户自动分组	无监督学习	聚类
训练机器人学会避开障碍物	强化学习	策略学习
判断用户评论是好评还是差评	监督学习	分类
预测外卖送达需要多少分钟	监督学习	回归
从大量文章中发现不同主题	无监督学习	聚类 / 主题发现

练习2参考提示

分类输出类别，回归输出数值。

“预测用户是否会流失”通常是分类，因为输出是“会”或“不会”。
“预测用户下个月消费金额”通常是回归，因为输出是金额数值。
房价预测通常是回归，因为输出是价格。

练习3参考提示

聚类通常没有提前给定标准答案，模型根据相似性自动分组，所以属于无监督学习。

聚类结果只是分组，组名和业务含义需要人解释。

用户分群可以帮助企业做个性化推荐、营销策略、用户运营和风险分析。

如果数据质量不好，模型可能把用户分成没有实际意义的组。

练习4参考提示

强化学习不是直接学习标准答案，而是通过行动后的奖励或惩罚学习策略。

游戏AI适合强化学习，因为游戏环境规则明确，可以大量模拟试错。

奖励设计不合理时，AI可能只追求短期奖励，甚至学到不符合预期的行为。

真实世界试错成本高，可能涉及安全风险，因此需要谨慎设计和验证。

练习5参考示例

问题	示例回答
我选择的场景	奶茶店销量预测
想解决的问题	预测明天需要准备多少原料
输入数据是什么	历史销量、天气、星期几、节假日、促销活动
是否有标签	有，历史真实销量
学习方式是什么	监督学习
任务类型是什么	回归
输出结果是什么	明天预计销量
可能的风险是什么	天气突变、活动影响、数据过时导致预测不准