当前位置: 首页 > news >正文

机器学习与模式识别 第八章 MAP与偏方差 考点压缩

第八章:Regression (Cont.) and Bias-Variance Trade-off — 知识点笔记

综合来源:Lecture 08 PDF(55页)、课堂笔记(CSDN)


占位图

8.1 先验信念与MAP ⭐⭐

MLE的问题

  • MLE仅用数据→小数据/噪声多→可能拟合极端权重
  • MLE没有机制编码"权重应该较小/合理"

MAP(最大后验估计)

贝叶斯法则p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(wt)p(tw)×p(w)

w^MAP=arg⁡max⁡wp(w∣t)=arg⁡max⁡w[p(t∣w)×p(w)]\hat{\mathbf{w}}_{MAP} = \arg\max_{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) = \arg\max_{\mathbf{w}} [p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})]w^MAP=argwmaxp(wt)=argwmax[p(tw)×p(w)]

取负对数→最大化→最小化:
w^MAP=arg⁡min⁡w[−ln⁡p(t∣w)−ln⁡p(w)]\hat{\mathbf{w}}_{MAP} = \arg\min_{\mathbf{w}} [-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})]w^MAP=argwmin[lnp(tw)lnp(w)]

高斯先验 → Ridge ⭐⭐⭐

先验假设wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wjN(0,τ2)(权重小、中心在0)

p(w)=∏j12πτ2e−wj2/2τ2p(\mathbf{w}) = \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)=j2πτ21ewj2/2τ2

MAP目标
w^MAP=arg⁡min⁡w[12σ2∑n(tn−wTϕ(xn))2+12τ2∥w∥22]\hat{\mathbf{w}}_{MAP} = \arg\min_{\mathbf{w}} \left[\frac{1}{2\sigma^2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 + \frac{1}{2\tau^2}\|\mathbf{w}\|_2^2\right]w^MAP=argwmin[2σ21n(tnwTϕ(xn))2+2τ21w22]

乘以σ2\sigma^2σ2
=arg⁡min⁡w[12∑n(tn−wTϕ(xn))2+σ22τ2∥w∥22]= \arg\min_{\mathbf{w}} \left[\frac{1}{2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 + \frac{\sigma^2}{2\tau^2}\|\mathbf{w}\|_2^2\right]=argwmin[21n(tnwTϕ(xn))2+2τ2σ2w22]

λ=σ2τ2\lambda = \frac{\sigma^2}{\tau^2}λ=τ2σ2

核心结论MAP(高斯先验)= Ridge回归!

  • L2正则化 = 假设权重服从高斯先验分布
  • λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2:数据噪声大→λ\lambdaλ大;先验强(τ2\tau^2τ2小)→λ\lambdaλ

MLE vs MAP 类比

频率学派(MLE)贝叶斯学派(MAP)
使用仅数据数据 + 先验信念
硬币例子MLE=1.0(仅HH)后验均值=0.58(结合先验5/10)
回归最小二乘Ridge回归

8.2 偏差-方差分解 ⭐⭐⭐

学习的基本挑战

  • 拟合数据:解释已观测到的
  • 泛化到世界:预测未来、解释未观测到的

三个误差来源

来源定义可控?
噪声(Noise)数据固有随机波动❌ 不可控(通常)
偏差(Bias)期望预测值与真实值之间的偏差✅ 模型选择
方差(Variance)不同训练集下预测值的变异性✅ 模型复杂度

推导 ⭐

假设t=h(x)+ϵt = h(\mathbf{x}) + \epsilont=h(x)+ϵE[ϵ]=0\mathbb{E}[\epsilon]=0E[ϵ]=0var[ϵ]=σ2\text{var}[\epsilon]=\sigma^2var[ϵ]=σ2

E[(t−fw(x))2]=E[(t−h(x))2]⏟Noise+(h(x)−E[fw(x)])2⏟Bias2+E[(E[fw(x)]−fw(x))2]⏟Variance\mathbb{E}[(t - f_{\mathbf{w}}(\mathbf{x}))^2] = \underbrace{\mathbb{E}[(t - h(\mathbf{x}))^2]}_{\text{Noise}} + \underbrace{(h(\mathbf{x}) - \mathbb{E}[f_{\mathbf{w}}(\mathbf{x})])^2}_{\text{Bias}^2} + \underbrace{\mathbb{E}[(\mathbb{E}[f_{\mathbf{w}}(\mathbf{x})] - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E[(tfw(x))2]=NoiseE[(th(x))2]+Bias2(h(x)E[fw(x)])2+VarianceE[(E[fw(x)]fw(x))2]

期望预测误差 = 噪声 + 偏差² + 方差

偏差-方差权衡图

误差 ↑ | Total Error | / \ | / \_____ Variance | / Bias² \ |/______________________\____ | Model Complexity → 简单 复杂

如何控制模型复杂度

方法效果
特征数量减少→更简单→更高偏差+更低方差
特征选择选不同基函数→不同偏置
正则化λ\lambdaλλ\lambdaλ↑→更简单→更高偏差+更低方差

λ\lambdaλ的偏差-方差效应

  • λ\lambdaλ小→模型复杂→低偏差+高方差(过拟合)
  • λ\lambdaλ大→模型简单→高偏差+低方差(欠拟合)
  • 最优λ\lambdaλ通过验证集确定!

8.3 双重下降(Double Descent)预览

来自CSDN笔记:

  • 传统U型曲线:模型复杂度↑→测试误差先降后升
  • 双重下降:过参数化后→测试误差再次下降!
  • 大模型+继续训练→可能获得更低测试误差
  • 实操建议:大模型不一定需要早停

笔记中的图片索引

序号图片内容描述来源位置
图1硬币例子:先验→后验更新Lecture 08 第4页
图2偏差-方差分解推导过程Lecture 08 第20-36页
图3偏差-方差权衡经典U型图Lecture 08 第37页
图4λ\lambdaλ对偏差-方差的影响Lecture 08 第39页
图5sin(2πx)拟合示例Lecture 08 第40页

笔记整理时间:2026年6月28日

http://www.gsyq.cn/news/1635869.html

相关文章:

  • Hetzner创建云服务器SSH Keys配置介绍(公钥、私钥、密钥配置、SSH配置)
  • ICM-42605与STM32F437ZG在运动追踪中的硬件与算法实现
  • 嵌入式精确计时系统:CS2200-CP与PIC18F2455的硬件设计与优化
  • TVA在具身智能商业化部署中的技术突破(13)
  • 从CVE-2020-27986看SonarQube安全加固:构建纵深防御的代码审计平台
  • 好用的区域教育一体化管理平台源头厂家
  • git的基本了解
  • GPT-4与GPT-4 Turbo核心差异:上下文、知识、稳定性与成本的工程真相
  • 计算机毕业设计之jsp克拉玛依职业技术学院信息工程系网站
  • Db2数据库手工SQL注入实战:从原理到靶场复现
  • E-Hentai下载器完整指南:3分钟掌握免费画廊打包技巧
  • 2025终极指南:如何轻松突破Google Drive PDF下载限制的3个关键步骤
  • 是谁给你的身份?中小政企轻量化本地 IAM 通用部署与选型全指南
  • 【下一代智慧养老:架构与实战连载】前言
  • 2026最新智习室合作盈利分析 看完就清楚能不能赚到钱
  • AI驱动测试用例生成:OmX工具实践与测试工程师转型
  • 云计算为企业带来竞争优势的9种方式
  • Java面试通关⑧:Spring核心IoC/AOP全集
  • 核内调度问题的分层优化:缓存管理与性能均衡策略 问题 3 的模型建立与求解 模型设计与分析+实验分析
  • Transformers.js:重新定义浏览器端AI推理的架构范式
  • 从零手搓大模型前置知识(附录二)PyTorch GPU 训练基础
  • GB 34660-2026深度解读:EMC新国标来了,为什么我说没人能100%合规
  • 别被低价模板带偏,真正该看的是建站公司的全案能力
  • 边缘计算+PLC融合|PLC用了20年还在“卡脖子”?四大产线困局你中了几条?
  • 【Windows + VSCode】ORB-SLAM2 从零下载、编译到运行示例完整复现教程
  • QT系统篇(5)(下)
  • 网盘下载慢到抓狂?这个开源浏览器脚本让你轻松获取高速直链
  • 机械工程论文降AI工具免费推荐:2026年机械工程毕业论文降AI4.8元知网达标完整方案
  • 架构评审数据化:别让评审会只剩观点碰撞
  • NVIDIA Profile Inspector:解锁显卡隐藏性能,让你的游戏体验飞起来