当前位置: 首页 > news >正文

神经网络与深度学习课程总结二

第四部分(下):经典卷积神经网络进阶

随着计算能力(GPU)的提升和海量数据(如 ImageNet)的出现,深度卷积神经网络在传统的 LeNet 基础上迎来了爆发,演生出了一系列更深、更强大的网络架构。以下是三种具有里程碑意义的经典网络总结:

一、 AlexNet (2012年 ImageNet 冠军)

AlexNet 证明了深层卷积神经网络在复杂图像分类(百万级高分辨率图像、1000个类别)上的巨大潜力。它的网络结构包含 5 层卷积层和 3 层全连接层,参数量达到了惊人的约 6000 万。

核心改进与创新:

  1. 引入 ReLU 激活函数:替代了传统的 Sigmoid 或 Tanh 函数,有效缓解了梯度消失问题,大幅提升了网络的收敛速度。

  2. 最大池化(Max Pooling):全面采用有重叠的最大池化操作代替平均池化,能够更好地保留图像中显著的纹理和边缘特征。

  3. Dropout 正则化:在全连接层中,以一定的概率($p$)随机“关闭”部分神经元,强制网络学习更加独立和鲁棒的特征,极大减轻了庞大参数带来的过拟合问题。

  4. 数据增强(Data Augmentation):通过平移、随机裁剪(Crop)、水平翻转(Flip)、以及色彩扰动(Color Jittering)等方式极大地扩充了训练集数据量。

  5. 双 GPU 并行训练:创新性地使用两块 GPU 协同训练,并限制它们仅在特定的层进行通信。

二、 VGG-16 (2014年)

VGG 网络将“深度”推向了全新的高度(16-19层),其核心理念是证明了更深的网络能够提取更丰富、更优异的特征

核心设计理念与普遍规律:

  1. 极致规整的微小卷积核:抛弃了 AlexNet 中较大的卷积核(如),全部采用极小的卷积核(步长为1,并使用 same padding 以保持特征图大小)。

  2. “按比例翻倍”的设计原则:* 对于输出特征图尺寸相同的层,保持相同数量的滤波器。每经过一次池化层导致特征图空间尺寸(长宽)减半时,滤波器(通道)的数量直接翻倍。这保证了网络每一层的时间复杂度大致相同。

  3. 特点与代价:网络结构异常简洁优美,特征提取能力极强。但代价是参数量极其庞大(高达 1.38 亿),且绝大部分参数集中在第一个全连接层。

三、 ResNet 残差网络 (2015年)

随着网络层数不断加深,研究者发现了一个违背直觉的“网络退化(Degradation)”问题:56 层的普通网络在训练集和测试集上的误差竟然都比 20 层网络还要高。这并不是因为过拟合,而是由极深网络带来的梯度消失引起的。

核心创新:残差块(Residual Block)与捷径连接

  1. Shortcut / Skip Connection(捷径连接):ResNet 引入了一条跨越一到两层的捷径,将前一层的输入 $x$ 直接传递并加到后面的输出端。

  2. 拟合残差:网络的映射从拟合原本的完整目标函数转变为拟合残差。最终的非线性激活输出变为:

  3. 为何有效?如果网络中某一层已经达到了最优表示(即无需额外的非线性变换),网络只需要将该层残差的权重逼近于 0,即可通过捷径轻松实现恒等映射(Identity Mapping)

  4. 巨大优势:这种结构直接为梯度回传打通了“高速公路”,彻底解决了深层网络的梯度消失顽疾。它使得训练成百上千层(如 ResNet-50, ResNet-101, ResNet-152)的极深网络成为现实,并且其计算复杂度(FLOPs)甚至远低于结构较浅的 VGG 网络。

第五部分:深度学习视觉应用

在掌握了卷积神经网络(CNN)的基础架构之后,本周课程正式进入了深度学习在计算机视觉领域的实际应用,重点探讨了目标检测任务及其主流算法。

一、 计算机视觉常用数据集

数据是驱动深度学习的核心。课程首先介绍了视觉领域几个具有里程碑意义的基础数据集:

  1. MNIST:

    • 内容:包含 0~9 的手写数字灰度图像()。

    • 地位:深度学习的“Hello World”,常用于验证算法的基础有效性。

  2. PASCAL VOC:

    • 内容:包含 20 个常见类别的真实场景图像。

    • 任务:提供了图像分类、目标检测、图像分割等任务的标准标注。

  3. MS COCO (Microsoft Common Objects in Context):

    • 内容:大规模的目标检测、分割和图像描述数据集,包含复杂的日常场景。

    • 特点:目标数量多、尺寸变化大、存在严重遮挡,是目前检验目标检测算法性能最权威的标尺。

  4. ImageNet:

    • 内容:包含超过 1400 万张图像、1000 个类别的庞大数据库。

    • 地位:ILSVRC 竞赛的数据基础,直接推动了 AlexNet、VGG、ResNet 等经典网络的诞生。

二、 目标检测任务的核心评价指标

与单纯的“图像分类(Image Classification)”不同,“目标检测(Object Detection)”不仅需要知道图像中“有什么(分类)”,还需要知道它们“在哪里(定位)”。因此,需要一套更为严谨的评价指标。

1. 基础指标:Precision(精确率)与 Recall(召回率)
  • Precision(精确率):模型预测为正样本的框中,真正是正样本的比例。(即“找得对不对”)

  • Recall(召回率):所有的真实正样本中,被模型成功预测出来的比例。(即“找得全不全”)

  • 注:两者往往是相互制约的,提高召回率通常会导致精确率下降。

2. P-R 曲线与 AP(Average Precision,平均精度)
  • P-R 曲线:以 Recall 为横坐标,Precision 为纵坐标绘制的曲线,展示了模型在不同置信度阈值下的表现。

  • AP 计算:AP 的值即为P-R 曲线下方的面积。面积越接近 1,说明该模型在当前类别上的检测性能越好。

3. mAP(mean Average Precision,平均精度均值)
  • 实际的目标检测任务往往包含多个类别。

  • 计算方法:对所有类别的 AP 值求算术平均。

  • 地位:mAP 是衡量目标检测模型综合性能最核心、最直观的指标。

三、 目标检测与 YOLO 算法

传统的目标检测算法(如 R-CNN 系列的“两阶段”算法)通常先提取候选区域(Region Proposals),再进行分类,速度较慢。而YOLO(You Only Look Once)开创了“单阶段(One-Stage)”检测的先河。

1. YOLO 的核心思想:将检测转化为回归问题
  • YOLO 放弃了繁琐的候选区域提取步骤,直接将目标检测任务看作是一个单一的空间空间回归问题(Regression Problem)

  • 只需要将图像输入神经网络一次(Only Look Once),就能直接在输出层同时得到所有目标的边界框坐标(Bounding Boxes)以及它们对应的类别概率(Class Probabilities)

2. YOLO 的基本工作流程
  1. 网格划分:将输入图像划分成的网格(Grid)。

  2. 网格职责:如果某个目标的中心点落在了某个网格内,该网格就负责预测这个目标。

  3. 输出预测:每个网格需要预测个边界框(包含中心坐标和宽高),每个框的置信度(Confidence),以及个类别的条件概率。

  4. 后处理:使用NMS(非极大值抑制,Non-Maximum Suppression)算法,去除对同一目标的重复预测框,保留得分最高的边界框。

3. YOLO 的优缺点总结
  • 优点:

  1. 极速(Fast):由于是单阶段网络,没有复杂的提交流程,检测速度极快,能够满足实时检测需求。

  2. 全局视野:在预测时能够利用全图的上下文信息,背景误检率(False Positives)相对较低。

  • 缺点:

  1. 对密集的小目标检测效果较差(因为一个网格通常只能预测有限数量的目标)。

  2. 边界框的定位精度不如两阶段算法(如 Faster R-CNN)。

http://www.gsyq.cn/news/1376002.html

相关文章:

  • 基于伊辛机与机器学习的无线网络TDMA调度优化实践
  • 华硕笔记本终极性能解放:如何用G-Helper实现轻量级硬件控制
  • 小白带你揭秘“盒子模型”前端开发者必知的布局基石
  • 苏州石膏板难题终结者:苏州聚亿鑫装饰的全方位解决方案,全屋定制/石膏板/欧松板/家装设计/生态板,石膏板公司哪个好 - 品牌推荐师
  • 深度学习在碳离子治疗剂量计算中的应用:U-Net、GAN与扩散模型对比
  • 告别误报!用SCTransNet+Transformer搞定红外小目标检测(附PyTorch实战代码)
  • Burp Suite Professional实战卡点解析:HTTPS抓包、代理拦截与Intruder失效根因
  • Charles断点调试:HTTP/HTTPS流量精准控制与实战避坑
  • 5分钟上手:用LeaguePrank打造专属英雄联盟客户端
  • 如何突破百度网盘限速:终极免费解析工具使用指南
  • [特殊字符] 旋转排序数组中的高效搜索:从线性到二分查找的进阶之路
  • 告别无效编程!Cursor + 高德地图实战,解锁AI开发效率密码
  • Unity Library文件夹不是缓存,而是项目运行时核心枢纽
  • MacBook上从零安装UE5.3保姆级教程(含Epic Games启动器配置与蓝图项目避坑)
  • 终极指南:5分钟解决BepInEx插件框架的90%常见问题 [特殊字符]
  • Frida绕过SSL Pinning实战:Android与iOS通用Hook方案
  • 实战踩坑:用Python复现DPC聚类算法时,dc参数到底怎么选才靠谱?
  • Unity Mecanim根运动偏转原理与四层解决方案
  • Unity中文语言包手动安装完整指南
  • Unity正版开发合规指南:破解风险与免费替代方案
  • 别再死记硬背!用Python代码和D-Separation定理,5分钟搞懂贝叶斯网络的条件独立性
  • Blender MMD Tools插件:专业级MMD动画制作的技术突破与实践指南
  • 数据不服从正态分布怎么办?从Box-Cox变换到W/EP检验的完整数据正态化实战指南
  • Windows句柄定位实战:5步精准获取HWND与跨进程控件操作
  • UE5 GPU崩溃注册表调优指南:WDDM超时与TCC模拟
  • 基于TorchGeo的Sentinel-2作物分类实战:从数据对齐到模型训练
  • AssetRipper深度解析:Unity资源静态解析原理与工程化实践
  • 差分隐私公平性:基于群体自适应裁剪的DP-SGD改进算法
  • 3分钟突破百度网盘限速:Python解析工具让你的下载速度飙升5倍
  • 避坑指南:UE球形遮罩材质边缘闪烁、接缝问题分析与修复(附完整节点图)