当前位置: 首页 > news >正文

03(扩展)回归决策树(Regression Decision Tree)

对应教材:陈封能《数据挖掘导论》第3章(扩展)
核心问题:如何用决策树的方法预测连续数值(如房价、温度、销售额)?


一、从分类到回归:目标变了!

1.1 分类树 vs 回归树 —— 一张表看懂

对比维度分类树回归树
目标变量类型离散类别(如“是/否”、“猫/狗”)连续数值(如“253,000元”、“37.5℃”)
树的分裂准则使子节点纯度最高(信息增益↑、基尼↓)使子节点方差最小(均方误差↓)
叶节点的输出多数表决(出现最多的类别)该区域所有样本的平均值
评估指标准确率、精确率、召回率、F1、AUC均方误差(MSE)、平均绝对误差(MAE)、R²

💡一句话理解:分类树问“这是A还是B?”,回归树问“这个值大概是多少?”

1.2 为什么需要回归树?线性回归不够用

  • 线性回归的局限:假设数据是直线关系,但真实世界往往是非线性的(如房价与面积:小面积时单价高,中等面积性价比高,豪宅单价再次飙升)。

  • 回归树的优势

    • 自动发现数据中的分段结构(如“面积<50㎡”一个规则,“50-120㎡”另一个规则,“>120㎡”又一个规则)。

    • 无需手动做特征工程(如不用自己去构造面积平方项)。

    • 模型结果易于解释(相当于一系列 if-else 规则)。

  • 典型应用:房价预测、医疗费用估算、广告点击率预测、库存需求预测。


二、回归决策树的核心原理

2.1 问题定义

2.2 如何找到最优划分?—— 平方误差最小化

🧠通俗解释:我们尝试每个特征、每个可能的分割点,计算分割后左半边的数值方差 + 右半边的数值方差。哪个分割点让这个和最小,就选哪个。

2.3 回归树生成算法(四步流程)


三、手算示例 —— 完整过程(一维特征)

假设我们有一个特征 xx 和对应的连续目标值 yy(10个样本):

序号xy
115.56
225.70
335.91
446.40
556.80
667.05
778.90
888.70
999.00
10109.05

3.3 所有切分点的损失值(PPT已给出)

切分点 s损失 L(s)
1.515.72
2.512.07
3.58.36
4.55.78
5.53.91
6.51.93(最小!)
7.54.05
8.57.33
9.514.71

最优切分点:s=6.5s=6.5,损失 = 1.93。

3.4 第一次划分结果

之后对左右子节点递归执行相同操作,得到更细的划分。

3.5 不同深度的拟合效果

  • 深度=1:只有一刀 → 两个常数(6.24 和 8.91),拟合粗糙。

  • 深度=3:切多刀 → 多个常数段,更接近真实数据。

  • 线性回归:一条直线,无法捕捉中间突变的阶梯形状。

🔍直观理解:回归树相当于用分段常数去逼近任意函数。深度越深,常数段越多,拟合越精细,但也越容易过拟合。


四、剪枝与正则化(防止过拟合)

4.1 回归树的两类剪枝策略

策略做法参数示例优缺点
预剪枝生长过程中提前停止max_depth,min_samples_split,min_samples_leaf简单高效,但可能过早停止
后剪枝先充分生长,再自底向上合并ccp_alpha(代价复杂度剪枝)效果更好,但计算量稍大

代价复杂度剪枝(CCP)原理

  • 第一项:所有叶节点的 MSE 之和(拟合误差)

  • 第二项:叶节点个数(模型复杂度惩罚)

  • αα 越大,惩罚越强,树越小。

4.2 回归树常用评估指标


五、回归树 vs 线性回归(关键对比)

实践建议

  1. 先用线性回归作为基线模型(简单、快速)。

  2. 再用回归树,如果回归树的 MSE 显著更低,说明数据存在明显的非线性或分段结构

  3. 也可以使用随机森林回归、梯度提升回归等集成方法,进一步提升效果。


六、Python 实战(sklearn 回归树)

6.1 基本代码(加州房价数据集为例)

from sklearn.datasets import fetch_california_housing from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error, r2_score # 加载数据 housing = fetch_california_housing() X, y = housing.data, housing.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) # 创建回归树模型(限制深度防过拟合) reg_tree = DecisionTreeRegressor(max_depth=5, random_state=42) reg_tree.fit(X_train, y_train) # 预测 y_pred = reg_tree.predict(X_test) # 评估 mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(f"MSE: {mse:.4f}, R²: {r2:.4f}")

6.2 重要参数说明

参数作用常用值
max_depth最大深度3~10,根据数据量调整
min_samples_split内部节点再划分所需最少样本数5~20
min_samples_leaf叶节点最少样本数2~10
ccp_alpha代价复杂度剪枝参数通过网格搜索确定

6.3 特征重要性

importances = reg_tree.feature_importances_ for name, imp in zip(housing.feature_names, importances): print(f"{name}: {imp:.3f}")

特征重要性 = 该特征在所有分裂中减少的 MSE 之和(归一化到 [0,1])。


七、本章核心总结(速记卡片)

概念一句话解释
回归树用 if-else 规则将特征空间分成多个矩形区域,每个区域输出均值
分裂准则最小化左右子节点的均方误差(MSE)之和
叶节点输出该区域所有样本目标值的平均值
与分类树的区别目标连续 vs 离散;分裂用方差 vs 纯度
过拟合控制预剪枝(限制深度) + 后剪枝(CCP)
评估指标MSE、MAE、R²
与线性回归对比回归树擅长非线性、分段关系,可解释性强,但不能外推
http://www.gsyq.cn/news/1518988.html

相关文章:

  • 完全指南:高效备份微信聊天记录的实用工具
  • 2026合肥防水怎么彻底解决?苏易修缮教你根治漏水不复发全攻略 - 苏易修缮
  • 深入解析NXP LS1046A安全引擎LOAD命令:数据搬运与性能优化实战
  • Oracle ebs 重新分析:DRP 数字化系统架构
  • 3种简单方法:如何将Switch游戏画面实时传输到电脑
  • 如何为Unity游戏添加自动翻译功能:XUnity.AutoTranslator完整指南
  • 轻量级新闻语料动态治理系统:面向NLP研究的可控采集与结构化编码
  • 2026年咸阳市CPPM考试最新全攻略:科目题型、通过率、备考重点及官方双认证报考机构推荐 - 众智商学院课程中心
  • T5-Base终极指南:如何快速上手这个强大的文本生成模型
  • 桌面数字伙伴革命:DyberPet如何让你的电脑桌面活起来
  • NHSE:动物森友会存档编辑器的终极指南与使用教程
  • OpenModScan:开源Modbus主站工具的技术解析与工业协议测试实践
  • pytest-xdist:把 pytest 测试分发到多核 CPU 执行
  • Ollama如何安装到D盘
  • 最大熵先验:贝叶斯建模中客观约束驱动的诚实起点
  • 注意!乘坐飞机切勿携带这种“伪装”违禁品
  • SniperDz 钓鱼即服务平台攻击链路与防御技术研究
  • 如何快速安装开源键盘应用OpenBoard:保护隐私的输入法完整指南
  • BilibiliDown:开源跨平台B站视频下载解决方案全解析
  • 高性能实时唇语识别工具深度解析:3分钟搭建本地化解决方案
  • 音乐解锁完全指南:3步轻松解密各大平台加密音频文件
  • 数据出了问题别再全员背锅了:聊聊数据血缘如何成为合规与排障的“监控摄像头”
  • 气候与户型双适配,详解六盘水全屋定制品牌选择逻辑 - 国麟测评
  • 抖音无水印下载终极指南:3个超简单步骤搞定高清视频批量下载
  • 2026年银川市CPPM考试最新全攻略:科目题型、通过率、备考重点及官方双认证报考机构推荐 - 众智商学院课程中心
  • 2026 湖北武汉本地热度爆棚、口碑优良的考研培训机构前五强 - 辛云教育资讯
  • 2026年6月合肥黄金回收行业全维度测评报告:门店排行 + 报价拆解、告别虚高引流 - 速递信息
  • 3分钟掌握!APK Installer的终极Windows安卓应用安装方案
  • 2026湖北武汉宝藏考研机构大集合,不容错过! - 辛云教育资讯
  • 河北工商注册公司对比测评,2026年财务代理记账哪家强 - 互联百晓生