YOLO骨干网络改进-第7篇:Swin Transformer块替换C2f的实验研究
一、引言
1.1 研究背景
YOLOv8作为当前最先进的单阶段目标检测算法之一,其骨干网络采用了C2f(Cross Stage Partial Fast)模块,该模块在CSPNet的基础上引入了更多的残差连接和梯度流路径,有效提升了特征提取能力。然而,C2f本质上仍然是基于卷积神经网络的模块,其感受野受限于卷积核大小,难以有效建模长距离依赖关系。
Swin Transformer(Shifted Window Transformer)是微软亚洲研究院于2021年提出的一种层次化视觉Transformer架构,它通过引入滑动窗口机制和层次化特征金字塔结构,成功将Transformer应用于各种密集预测任务。Swin Transformer在ImageNet图像分类、COCO目标检测和ADE20K语义分割等任务上都取得了当时的SOTA成绩。
1.2 研究动机
将Swin Transformer引入YOLOv8骨干网络的动机主要有以下几点:
全局建模能力:Swin Transformer的自注意力机制能够有效捕获长距离依赖关系,这对于目标检测中的大目标检测、遮挡目标检测和上下文理解至关重要。
层次化特征:Swin Transformer天然具有层次化的特征金字塔结构,能够产生不同尺度的特征图,非常适合目标检测任务。
计算效率:与ViT等全局注意力Transformer不同
