第5课:机器学习的基本类型
一、课程信息
- 课程主题:机器学习的基本类型
- 适合对象:人工智能零基础学习者
- 预计学习时长:2小时
- 学习方式建议:先理解“有没有标准答案”,再理解“要解决什么任务”
二、学习目标
学完本课后,你应该能够:
- 区分监督学习、无监督学习和强化学习。
- 理解分类、回归、聚类分别解决什么问题。
- 能判断常见AI任务属于哪种学习方式。
- 能用生活案例解释不同机器学习类型。
- 初步理解不同学习方式适合的应用场景和局限。
三、课程导入:机器学习不止一种学法
前面几课我们已经知道,机器学习是让机器从数据中总结规律。
但机器学习并不是只有一种方式。
不同任务的数据条件不同,学习目标也不同。
例如:
- 有些任务有明确答案,例如“这张图片是猫还是狗”。
- 有些任务没有明确答案,例如“把相似用户自动分组”。
- 有些任务需要在行动中不断试错,例如“游戏AI如何获得更高分”。
这就对应了机器学习中的几种基本类型:
监督学习、无监督学习、强化学习本课会用生活案例解释这些概念,帮助你建立清晰框架。
四、先看一个总览
机器学习的基本类型可以先这样理解:
| 类型 | 是否有标准答案 | 学习方式 | 生活类比 |
|---|---|---|---|
| 监督学习 | 有 | 根据带答案的样本学习 | 老师批改作业 |
| 无监督学习 | 没有明确标准答案 | 自己发现数据中的结构 | 自己整理书架 |
| 强化学习 | 没有直接答案,但有奖励和惩罚 | 通过试错学习策略 | 训练宠物或玩游戏升级 |
需要注意:
监督学习、无监督学习、强化学习是“学习方式”;分类、回归、聚类是更具体的“任务类型”。
后面会分别讲清楚。
五、监督学习:有标准答案的学习
1. 什么是监督学习
监督学习是最常见的机器学习类型之一。
它的特点是:
训练数据中不仅有输入,还有对应的正确答案。
这里的正确答案通常叫“标签”。
例如:
| 输入数据 | 标签 |
|---|---|
| 一张猫的图片 | 猫 |
| 一张狗的图片 | 狗 |
| 一封广告邮件 | 垃圾邮件 |
| 一封工作邮件 | 正常邮件 |
| 一套房屋信息 | 成交价格 |
模型通过这些带答案的数据学习输入和答案之间的关系。
2. 生活类比:老师批改作业
监督学习像学生做有答案的练习题。
过程是:
- 学生做题。
- 老师给出正确答案。
- 学生发现自己哪里错了。
- 学生调整解题方法。
- 下次遇到类似题目做得更好。
机器学习中的模型也是类似过程:
模型预测 → 对比正确标签 → 发现误差 → 调整模型 → 再次预测3. 监督学习适合什么问题
监督学习适合有历史数据和明确答案的问题。
例如:
- 垃圾邮件识别
- 猫狗图片识别
- 房价预测
- 用户是否会流失
- 评论是好评还是差评
- 贷款申请是否有风险
- 商品销量预测
4. 监督学习需要什么条件
监督学习通常需要:
- 足够多的样本
- 清晰准确的标签
- 数据和真实场景接近
- 明确的预测目标
如果标签质量差,模型就会被错误答案误导。
例如把正常邮件大量标成垃圾邮件,模型就可能误伤重要邮件。
六、监督学习中的分类问题
1. 什么是分类
分类是监督学习中非常常见的一类任务。
它要解决的问题是:
判断一个对象属于哪一类。
分类的输出通常是类别。
例如:
- 猫 / 狗
- 垃圾邮件 / 正常邮件
- 好评 / 差评
- 高风险 / 低风险
- 通过 / 不通过
2. 分类问题的例子
| 任务 | 输入 | 输出类别 |
|---|---|---|
| 垃圾邮件识别 | 邮件内容 | 垃圾邮件 / 正常邮件 |
| 情感分析 | 用户评论 | 好评 / 中评 / 差评 |
| 图片识别 | 图片 | 猫 / 狗 / 汽车 / 人 |
| 风险识别 | 交易记录 | 正常 / 可疑 |
| 疾病风险提示 | 检查数据 | 高风险 / 低风险 |
3. 二分类和多分类
如果只有两个类别,叫二分类。
例如:
- 是 / 否
- 垃圾邮件 / 正常邮件
- 通过 / 不通过
如果有多个类别,叫多分类。
例如:
- 图片识别为猫、狗、车、树、人
- 新闻分类为体育、财经、科技、娱乐
- 商品分类为服装、食品、家电、图书
4. 分类结果可能是概率
分类模型经常输出概率。
例如垃圾邮件识别:
垃圾邮件概率:92% 正常邮件概率:8%系统可以根据概率决定怎么处理。
例如:
- 超过90%直接放入垃圾箱
- 60%-90%标记为可疑
- 低于60%放入收件箱
不同业务场景可以设置不同阈值。
七、监督学习中的回归问题
1. 什么是回归
回归也是监督学习中的常见任务。
它要解决的问题是:
预测一个连续数值。
这里的“回归”不是回到过去,而是预测数值。
例如:
- 预测房价是多少
- 预测明天销量是多少
- 预测用户下个月消费金额
- 预测气温
- 预测配送需要多少分钟
2. 回归和分类的区别
分类输出的是类别。
回归输出的是数值。
| 问题 | 类型 | 输出 |
|---|---|---|
| 判断邮件是否垃圾邮件 | 分类 | 垃圾邮件 / 正常邮件 |
| 预测一套房子价格 | 回归 | 300万元 |
| 判断评论是好评还是差评 | 分类 | 好评 / 差评 |
| 预测明天奶茶销量 | 回归 | 240杯 |
| 判断用户是否会流失 | 分类 | 会 / 不会 |
| 预测用户下月消费金额 | 回归 | 520元 |
3. 回归问题的生活例子
假设你要预测一家奶茶店明天能卖多少杯。
可能需要考虑:
- 星期几
- 天气
- 节假日
- 附近是否有活动
- 历史销量
- 是否有促销
- 温度高低
模型从历史数据中学习这些因素和销量之间的关系。
之后输入明天的情况,模型给出销量预测。
4. 回归结果通常不会完全准确
回归预测受很多因素影响。
例如房价预测受到市场、政策、装修、买卖双方心理等因素影响。
因此,回归模型给出的通常是估计值,而不是绝对真相。
在实际应用中,需要结合误差范围理解结果。
八、无监督学习:没有标准答案,让机器自己找规律
1. 什么是无监督学习
无监督学习的特点是:
数据中没有明确的标准答案,机器需要自己发现数据中的结构或规律。
例如,你有一批用户数据,但没有人提前告诉你每个用户属于哪一类。
模型可以尝试根据用户行为,把相似用户分到一起。
2. 生活类比:自己整理书架
假设你有一堆书,没有人告诉你应该怎么分类。
你可能会自己观察:
- 有些是小说
- 有些是教材
- 有些是历史书
- 有些是工具书
- 有些书尺寸相近
- 有些书主题相近
然后你按自己的规则把它们分组。
这就类似无监督学习。
它不是根据标准答案学习,而是从数据本身发现相似性和结构。
3. 无监督学习适合什么问题
无监督学习适合探索性问题。
例如:
- 用户分群
- 商品分组
- 异常检测
- 文档主题发现
- 相似图片聚集
- 客户行为模式分析
当我们还不知道数据中有哪些类别时,无监督学习很有用。
九、无监督学习中的聚类问题
1. 什么是聚类
聚类是无监督学习中最常见的任务之一。
它要解决的问题是:
把相似的对象自动分到同一组。
聚类没有提前给定标准答案。
模型只是根据数据相似性分组。
2. 聚类的例子
| 任务 | 输入数据 | 聚类结果 |
|---|---|---|
| 用户分群 | 浏览、购买、消费数据 | 高价值用户、价格敏感用户、新用户等 |
| 商品分组 | 商品标题、属性、销量 | 相似商品组 |
| 文档归类 | 大量文章 | 科技类、财经类、体育类等主题 |
| 图片整理 | 大量照片 | 风景、人像、食物等相似图片组 |
注意:
聚类后的组名通常需要人来解释。
模型可能只告诉你“这些用户比较相似”,但这些用户为什么相似、该叫什么名字,需要人结合业务理解。
3. 聚类和分类的区别
分类和聚类很容易混淆。
| 对比项 | 分类 | 聚类 |
|---|---|---|
| 是否有标签 | 有 | 没有 |
| 是否提前知道类别 | 通常知道 | 通常不知道 |
| 输出 | 指定类别 | 自动分组 |
| 学习类型 | 监督学习 | 无监督学习 |
| 生活类比 | 老师告诉你答案 | 自己观察后分组 |
4. 聚类的风险
聚类结果不一定天然正确。
因为模型只是根据数据相似性分组。
如果输入数据不合理,分组也可能没有意义。
例如把用户按“登录时间”分组,可能得到早上登录用户、晚上登录用户。
但这个分组是否对业务有价值,还需要人判断。
十、强化学习:通过奖励和惩罚学习策略
1. 什么是强化学习
强化学习是一种通过试错学习的方式。
它的特点是:
智能体在环境中采取行动,根据奖励或惩罚不断调整策略,目标是获得更高长期收益。
这里有几个关键词:
- 智能体:做决策的对象,例如游戏AI或机器人
- 环境:智能体所处的世界,例如游戏地图或真实房间
- 行动:智能体可以做的选择
- 奖励:行动后得到的反馈
- 策略:智能体选择行动的方法
2. 生活类比:训练宠物
训练宠物时,你可能会这样做:
- 做对动作,给奖励
- 做错动作,不给奖励或纠正
- 重复多次后,宠物更可能做出正确动作
强化学习也是类似思想。
模型不是直接拿到每一步的标准答案,而是通过奖励信号学习什么行为更好。
3. 游戏AI例子
以游戏AI为例。
AI可以选择:
- 向左走
- 向右走
- 跳跃
- 攻击
- 防守
如果它获得分数,就是奖励。
如果它失败或损失生命值,就是负面反馈。
经过大量尝试后,AI可能学会更好的游戏策略。
4. 强化学习适合什么问题
强化学习适合需要连续决策的问题。
例如:
- 游戏AI
- 机器人控制
- 自动驾驶中的部分决策
- 资源调度
- 广告投放策略优化
- 智能推荐策略优化
这些问题的特点是:
当前行动会影响未来结果。
例如游戏中现在选择进攻还是防守,会影响后续局面。
5. 强化学习的挑战
强化学习听起来很自然,但实际很复杂。
原因包括:
- 需要大量试错
- 试错成本可能很高
- 奖励设计很难
- 短期奖励和长期收益可能冲突
- 真实环境安全风险较高
例如自动驾驶不能在真实道路上随意试错。
因此很多强化学习训练需要先在模拟环境中进行。
十一、三种学习方式的对比
| 对比项 | 监督学习 | 无监督学习 | 强化学习 |
|---|---|---|---|
| 是否有答案 | 有明确标签 | 没有明确标签 | 没有直接答案,有奖励反馈 |
| 学习目标 | 学会输入到答案的关系 | 发现数据结构 | 学会行动策略 |
| 典型任务 | 分类、回归 | 聚类、异常发现 | 游戏策略、机器人控制 |
| 生活类比 | 老师批改作业 | 自己整理书架 | 通过奖励训练行为 |
| 适合场景 | 有历史答案的数据任务 | 探索数据规律 | 连续决策和试错优化 |
| 主要难点 | 标签质量 | 结果解释 | 奖励设计和试错成本 |
这张表是本课的核心。
如果你能用自己的话解释这三类学习方式,就已经掌握了机器学习入门中的重要框架。
十二、任务类型和学习方式不要混淆
初学者常见误区是把“监督学习”和“分类”当成同一个东西。
它们不是同一层级的概念。
可以这样理解:
学习方式:机器怎么学 任务类型:机器要解决什么问题例如:
- 监督学习可以做分类,也可以做回归。
- 无监督学习常见任务是聚类。
- 强化学习关注的是策略学习和连续决策。
1. 学习方式
学习方式回答的是:
数据和反馈长什么样?
例如:
- 有标准答案:监督学习
- 没有标准答案:无监督学习
- 有奖励反馈:强化学习
2. 任务类型
任务类型回答的是:
最终要输出什么?
例如:
- 输出类别:分类
- 输出数值:回归
- 输出分组:聚类
- 输出行动策略:强化学习任务
十三、常见任务判断方法
判断一个机器学习任务,可以按两步走。
第一步:看有没有标准答案
问自己:
训练数据里有没有明确答案?
如果有,例如每封邮件都标注了“垃圾邮件”或“正常邮件”,通常是监督学习。
如果没有,只是给一堆用户行为数据,希望机器自己分组,通常是无监督学习。
如果没有每一步标准答案,但有奖励或惩罚,可能是强化学习。
第二步:看输出是什么
问自己:
模型最终要输出类别、数值、分组,还是行动?
如果输出类别,是分类。
如果输出数值,是回归。
如果输出分组,是聚类。
如果输出下一步行动或长期策略,可能是强化学习。
判断示例
| 任务 | 学习方式 | 任务类型 |
|---|---|---|
| 判断邮件是不是垃圾邮件 | 监督学习 | 分类 |
| 预测房价 | 监督学习 | 回归 |
| 把用户自动分成几类 | 无监督学习 | 聚类 |
| 训练游戏AI获得更高分 | 强化学习 | 策略学习 |
| 判断评论是好评还是差评 | 监督学习 | 分类 |
| 预测明天销量 | 监督学习 | 回归 |
十四、案例一:垃圾邮件识别
1. 问题描述
目标:
判断一封邮件是不是垃圾邮件。
2. 数据和标签
训练数据可能是:
| 邮件内容 | 标签 |
|---|---|
| 限时优惠,点击领取大奖 | 垃圾邮件 |
| 明天下午开项目会议 | 正常邮件 |
| 恭喜中奖,请填写银行卡 | 垃圾邮件 |
| 请查收本周工作总结 | 正常邮件 |
3. 学习方式和任务类型
它属于:
- 学习方式:监督学习
- 任务类型:分类
原因:
- 有标准答案,也就是垃圾邮件或正常邮件标签。
- 输出是类别,而不是数值。
4. 可能的风险
垃圾邮件识别不仅要看准确率。
还要关注两类错误:
- 垃圾邮件没有拦住
- 正常邮件被误判为垃圾邮件
在很多场景中,第二种错误可能更严重。
十五、案例二:房价预测
1. 问题描述
目标:
根据房屋信息预测房价。
2. 数据和标签
训练数据可能包括:
| 面积 | 位置 | 楼层 | 房龄 | 成交价格 |
|---|---|---|---|---|
| 90平米 | 市中心 | 12层 | 5年 | 450万元 |
| 70平米 | 郊区 | 6层 | 10年 | 180万元 |
| 120平米 | 学区附近 | 18层 | 3年 | 800万元 |
其中成交价格就是标签。
3. 学习方式和任务类型
它属于:
- 学习方式:监督学习
- 任务类型:回归
原因:
- 有历史成交价格作为答案。
- 输出是价格这个数值。
4. 为什么结果不可能完全准确
房价会受到很多因素影响:
- 市场变化
- 政策变化
- 装修情况
- 买卖双方心理
- 小区环境
- 数据是否及时
所以模型输出通常只能作为参考估计。
十六、案例三:用户分群
1. 问题描述
目标:
根据用户行为,把相似用户自动分成不同群体。
2. 数据情况
数据可能包括:
- 浏览商品类型
- 购买频率
- 平均消费金额
- 使用时长
- 活跃时间
- 是否参与促销
- 收藏和加购行为
通常没有人提前告诉模型:
这个用户一定属于A类,那个用户一定属于B类。3. 学习方式和任务类型
它属于:
- 学习方式:无监督学习
- 任务类型:聚类
原因:
- 没有明确标签。
- 目标是把相似用户自动分组。
4. 聚类结果需要人解释
模型可能把用户分成三组。
但每组代表什么,需要业务人员分析。
例如:
- 第一组:高频高消费用户
- 第二组:只在促销时购买的用户
- 第三组:浏览很多但购买少的用户
这些名字不是模型天然知道的,而是人根据数据特征解释出来的。
十七、案例四:游戏AI训练
1. 问题描述
目标:
让游戏AI学会获得更高分或赢得比赛。
2. 学习方式
它通常属于强化学习。
原因是:
- AI没有每一步的标准答案。
- 它需要不断尝试行动。
- 行动结果会带来奖励或惩罚。
- 目标是学到长期更优策略。
3. 奖励设计很重要
如果奖励只设计成“得分越高越好”,AI可能学到一些奇怪策略。
例如只追求短期得分,却忽略长期胜利。
奖励设计需要考虑:
- 短期收益
- 长期目标
- 安全限制
- 行为是否符合预期
4. 为什么强化学习难
强化学习需要大量尝试。
在游戏中试错成本较低,可以反复模拟。
但在真实世界中,比如机器人或自动驾驶,试错成本很高,甚至有安全风险。
十八、异常检测:一个容易混合的任务
异常检测是发现“不正常”的数据。
例如:
- 信用卡盗刷
- 设备故障
- 网络攻击
- 异常订单
- 异常登录
异常检测可能使用不同学习方式。
1. 有标签时:监督学习
如果历史数据明确标注了:
- 正常交易
- 欺诈交易
那么可以用监督学习做分类。
2. 没有标签时:无监督学习
如果没有明确欺诈标签,只知道大多数行为是正常的,就可以寻找和大多数数据差异很大的异常点。
这更接近无监督学习。
3. 这个例子的启示
同一个业务问题,不一定只有一种学习方式。
关键要看:
- 数据有没有标签
- 标签是否可靠
- 任务目标是什么
- 错误成本有多高
十九、选择学习方式时要考虑什么
1. 是否有标签
如果有大量可靠标签,监督学习通常是首选。
如果没有标签,但想探索数据结构,可以考虑无监督学习。
如果任务涉及连续行动和奖励反馈,可以考虑强化学习。
2. 标签成本高不高
有些标签很容易获得。
例如用户点击、购买、评分。
有些标签很贵。
例如医学影像标注需要专业医生。
标签成本会影响技术方案。
3. 错误成本有多高
不同场景错误成本不同。
例如:
- 推荐错一条视频,影响较小
- 误判一封重要邮件,影响较大
- 医疗诊断错误,影响很大
- 自动驾驶决策错误,风险极高
错误成本越高,越需要严格测试和人工审核。
4. 是否需要解释
有些场景需要知道模型为什么这样判断。
例如金融风控、医疗辅助、招聘筛选。
如果模型难以解释,可能难以直接用于高风险决策。
5. 数据是否会变化
如果数据变化很快,模型需要持续更新。
例如:
- 用户兴趣变化
- 市场价格变化
- 欺诈手段变化
- 网络流行语变化
模型不能训练一次就永远不管。
二十、初学者常见误区
误区1:无监督学习就是没有用的学习
不是。
无监督学习很适合探索数据结构。
例如企业不知道用户可以分成哪些群体时,聚类可以提供初步线索。
误区2:强化学习就是让AI随便试
不是。
强化学习需要设计环境、行动空间、奖励规则和安全限制。
没有合理设计,模型可能学到不符合预期的行为。
误区3:分类和回归都是监督学习,所以没有区别
它们都可以属于监督学习,但任务目标不同。
分类输出类别。
回归输出数值。
误区4:聚类结果一定是真实分类
聚类只是根据相似性分组。
分组是否有业务意义,需要人来解释和验证。
误区5:只要算法选对,数据质量就不重要
不对。
数据质量仍然非常关键。
错误标签、偏见数据、过时数据都会影响模型效果。
二十一、课堂活动:判断机器学习类型
活动目标
通过具体任务判断学习方式和任务类型。
活动任务
请判断下面任务属于哪种学习方式和任务类型。
| 任务 | 学习方式 | 任务类型 | 判断理由 |
|---|---|---|---|
| 根据历史成交数据预测房价 | |||
| 根据用户行为把用户分成几类 | |||
| 训练游戏AI获得更高分 | |||
| 判断一封邮件是否为垃圾邮件 | |||
| 根据评论判断用户情绪 | |||
| 根据天气预测明天奶茶销量 | |||
| 把大量新闻自动分成主题组 |
判断提示
先问:
- 有没有明确标准答案?
- 输出是类别、数值、分组,还是行动策略?
- 是否需要通过奖励和惩罚学习?
二十二、课堂活动:设计课程推荐任务
活动目标
把机器学习类型应用到实际问题中。
活动任务
设计一个“根据学习习惯推荐课程”的简单AI任务。
填写模板
| 问题 | 我的设计 |
|---|---|
| 目标用户是谁 | |
| 要解决什么问题 | |
| 需要哪些数据 | |
| 有没有明确标签 | |
| 可能属于哪种学习方式 | |
| 可能输出什么结果 | |
| 如何判断推荐是否有效 | |
| 可能出现什么风险 |
可参考的数据
- 学习者年龄或年级
- 已学课程
- 学习时长
- 完课情况
- 练习正确率
- 收藏课程
- 课程评分
- 搜索关键词
- 学习目标
可能的推荐目标
- 推荐下一门课程
- 推荐复习内容
- 推荐练习题
- 推荐学习路径
- 推荐难度更合适的课程
二十三、本课小结
本课我们学习了机器学习的基本类型。
需要重点记住:
- 监督学习是有标准答案的学习,常用于分类和回归。
- 分类是判断对象属于哪一类。
- 回归是预测一个连续数值。
- 无监督学习没有明确标准答案,常用于发现数据结构。
- 聚类是把相似对象自动分到同一组。
- 强化学习通过奖励和惩罚学习行动策略。
- 学习方式回答“机器怎么学”,任务类型回答“机器要输出什么”。
- 同一个业务问题可能有多种建模方式,关键取决于数据、标签和目标。
- 聚类结果需要人解释,强化学习需要谨慎设计奖励。
- 选择机器学习方式时,要考虑标签、错误成本、解释性和数据变化。
二十四、课后练习
练习1:判断任务类型
请判断下面任务属于哪种学习方式和任务类型。
| 任务 | 学习方式 | 任务类型 |
|---|---|---|
| 预测明天商品销量 | ||
| 判断图片中是猫还是狗 | ||
| 把相似客户自动分组 | ||
| 训练机器人学会避开障碍物 | ||
| 判断用户评论是好评还是差评 | ||
| 预测外卖送达需要多少分钟 | ||
| 从大量文章中发现不同主题 |
练习2:区分分类和回归
请回答:
- 分类和回归最大的区别是什么?
- “预测用户是否会流失”是分类还是回归?
- “预测用户下个月消费金额”是分类还是回归?
- 为什么房价预测通常属于回归?
练习3:理解聚类
请回答:
- 聚类为什么通常属于无监督学习?
- 聚类结果为什么需要人来解释?
- 用户分群可以给业务带来什么帮助?
- 如果输入数据质量不好,聚类结果可能出现什么问题?
练习4:理解强化学习
请回答:
- 强化学习和监督学习最大的区别是什么?
- 为什么强化学习适合游戏AI?
- 奖励设计不合理可能带来什么问题?
- 为什么真实世界中的强化学习需要更谨慎?
练习5:设计一个机器学习任务
请选择一个生活或工作场景,设计一个机器学习任务。
| 问题 | 我的回答 |
|---|---|
| 我选择的场景 | |
| 想解决的问题 | |
| 输入数据是什么 | |
| 是否有标签 | |
| 学习方式是什么 | |
| 任务类型是什么 | |
| 输出结果是什么 | |
| 可能的风险是什么 |
二十五、参考答案与提示
练习1参考答案
| 任务 | 学习方式 | 任务类型 |
|---|---|---|
| 预测明天商品销量 | 监督学习 | 回归 |
| 判断图片中是猫还是狗 | 监督学习 | 分类 |
| 把相似客户自动分组 | 无监督学习 | 聚类 |
| 训练机器人学会避开障碍物 | 强化学习 | 策略学习 |
| 判断用户评论是好评还是差评 | 监督学习 | 分类 |
| 预测外卖送达需要多少分钟 | 监督学习 | 回归 |
| 从大量文章中发现不同主题 | 无监督学习 | 聚类 / 主题发现 |
练习2参考提示
分类输出类别,回归输出数值。
- “预测用户是否会流失”通常是分类,因为输出是“会”或“不会”。
- “预测用户下个月消费金额”通常是回归,因为输出是金额数值。
- 房价预测通常是回归,因为输出是价格。
练习3参考提示
聚类通常没有提前给定标准答案,模型根据相似性自动分组,所以属于无监督学习。
聚类结果只是分组,组名和业务含义需要人解释。
用户分群可以帮助企业做个性化推荐、营销策略、用户运营和风险分析。
如果数据质量不好,模型可能把用户分成没有实际意义的组。
练习4参考提示
强化学习不是直接学习标准答案,而是通过行动后的奖励或惩罚学习策略。
游戏AI适合强化学习,因为游戏环境规则明确,可以大量模拟试错。
奖励设计不合理时,AI可能只追求短期奖励,甚至学到不符合预期的行为。
真实世界试错成本高,可能涉及安全风险,因此需要谨慎设计和验证。
练习5参考示例
| 问题 | 示例回答 |
|---|---|
| 我选择的场景 | 奶茶店销量预测 |
| 想解决的问题 | 预测明天需要准备多少原料 |
| 输入数据是什么 | 历史销量、天气、星期几、节假日、促销活动 |
| 是否有标签 | 有,历史真实销量 |
| 学习方式是什么 | 监督学习 |
| 任务类型是什么 | 回归 |
| 输出结果是什么 | 明天预计销量 |
| 可能的风险是什么 | 天气突变、活动影响、数据过时导致预测不准 |
二十六、下一课预告
下一课我们将进入第三阶段,学习:
深度学习与神经网络入门
你将了解:
- 什么是神经网络
- 输入层、隐藏层、输出层分别是什么
- 深度学习为什么适合处理图片、语音和文本
- 为什么多层网络可以提取更复杂的特征
如果说本课帮助你理解机器学习有哪些基本类型,那么下一课会进一步解释现代AI中非常重要的深度学习方法。
