当前位置: 首页 > news >正文

李宏毅机器学习笔记20 - 实践

目录

摘要

Abstract

1.Feature normalization

2.Batch normalization

3.Batch normalization-testing


摘要

本篇文章继续学习李宏毅老师2025春季机器学习Feature normalization和Batch normalization相关概念及计算方法就是课程,学习内容

Abstract

This article continues the study ofProf. Hung-yi Lee's 2025 Spring Machine Learning Course, focusing on the concepts and computational methods ofFeature Normalization and Batch Normalization.

1.Feature normalization

假设两个参数w1,w2对loss的斜率相差很大,w1斜率变化小,w2斜率变化大,用固定的learning rate很难有好的结果,之前大家的解决办法是让learning rate自适应变化,而现在从另一个方向想,我们直接把难做的error surface去掉会不会好做一些。

举一个简单的例子,一个非常简单的model为然后计算的距离即为loss。假设x1输入都很小,w1变化对loss的影响就很小,就导致了w1斜率变化小;假设x2输入都很大,w2变化对loss的影响就很大,就算w2变化很,但是基于乘上了x2,所以loss变化很大,也就导致了w1斜率变化大。所以当我们的输入范围差距很大就会出现上述的这种情况。

那我们让输入有相同的范围就行使其变得更好训练, 一种做法是把所有的feature vector都集合起来,那我们把同一个dimension(维度)不同训练资料的feature vector的数值取出来,计算出均值记为,再计算他们的standard deviation(标准差)记为

接下来我们就允许做一个normalization,叫做标准化,把某个feature vector的某个维度的值减去之前算出的,再除得到一个值,记为。他们有一个特征就是某个维度上的平均值为0,方差为1。对所有的数据都处理后,他们的数值都在0上下,这样就可以制造出比较好训练的error surface。

2.Batch normalization

当我们搞定feature normalization后,依据layer 1,得到z,通过sigmoid或Relu得到a,再通过下一层,对第二层W2来说,实际上的输入是a,为上一层的输出,输出并没有做feature normalization,于是我们需要对a或z做feature normalization。

假设对z做feature normalization,我们将z1,z2,z3平均起来记为向量,再去计算向量中每个元素的标准差得到向量

用z1,z2,z3减去再除以(向量中的每个元素分别计算),最后得出结果向量,必须注意的是此时若是改变z1,会影响到导致,z2,z3也被更改。实际操作时,我们会让network考虑一个batch,因此我们是对一个batch里的数据做normalization,这也叫做batch normalization,适用于batch比较大的时候。

在batch normalization中还会需要进行额外操作,需要让乘上另一个向量(其中元素各自相乘,结果仍是向量)在加上一个向量,而是network另外的参数。初始是全一的向量,为全零的向量,在开始时不会影响,在后来训练到一定程度,他们会慢慢加进去。

3.Batch normalization-testing

在实际运作中,假设batch设置是64,但是资料并不足填满一个batch,此时的如何计算? 在训练中,我们每一个batch计算出的都会拿出来计算moving average,就是在训练中的所有会用于算一个平均值,用平均值代替。

http://www.gsyq.cn/news/44411.html

相关文章:

  • 性能监测火焰图原理及搭建
  • 基于Java的车辆租赁管理平台/租车系统源码+运行步骤
  • 20251109-2
  • 2025年服务贴心的离婚财产分割律师口碑指数榜
  • 深入解析:让AI说“人话“:TypeChat.NET如何用强类型驯服大语言模型的“野性“
  • 2025年评价高的专利评估综合口碑榜
  • 实用指南:手机群控软件在游戏运营中的风险管控技术实现
  • Process Monitor 学习笔记(5.2):事件模型与五大类操作(文档/注册表/进程/网络/Profiling
  • flask: 用gunicorn部署flask项目
  • 使用Math库执行数值计算
  • 2025年专业的短视频运营本地优质榜
  • 中文机器阅读理解数据集:7000条高质量问答数据,涵盖搜索与知道双场景,支持DESCRIPTION:YES_NO:ENTITY多类型问题,适用于BERT:GPT等模型训练与评估
  • 2025年优秀的涂装喷砂房最新TOP排名厂家
  • 2025年靠谱的品牌展厅设计展示空间创新设计榜
  • Zabbix服务告警:Zabbix server: Utilization of discoverer processes over 75%
  • 2025年11月豆包排名优化实力推荐:五强对比助企业精准决策
  • 2025年11月北京geo优化公司推荐榜:五强服务链路深度拆解
  • 2025年11月豆包搜索排名优化服务推荐:五强实力剖析与落地步骤
  • 2025年11月geo优化公司优选推荐:场景化选择指南
  • 如何更聪明地偿还债务?两种主流还款策略的对比
  • 2025年11月geo优化公司优选推荐:五家服务体系深度拆解
  • 人脸识别技术备案全攻略 - 实践
  • 20251109
  • 2025年靠谱的别墅装修售后行业热销榜
  • 破局之智:当口号碰撞时,如何通过价值解构与叙事协商抵达共识
  • 2025年口碑好的西铁城机床代理商顶级口碑榜
  • 2025年如何选抖音运营运营服务排行榜
  • 2025年知名的水分保持剂食品添加剂厂家最新推荐排行榜
  • 七段第一课:枚举
  • 2025年优秀的网站建设顶尖推荐榜