当前位置：首页 > news >正文

无人机俯拍图中车辆行人自动标注工具包：YOLOv5+SSD双模型实测版（含VisDrone数据、训练代码与一键推理demo）

news 2026/6/6 14:44:11

本文还有配套的精品资源，点击获取

简介：直接跑通无人机航拍图像里的车辆和行人检测任务，不用从头整理数据、调环境或写训练逻辑。里面已经按VisDrone数据集规范处理好标注文件，YOLOv5和SSD两个模型各自独立封装在yolo/和ssd/目录下，每个都带完整训练脚本、验证评估代码和推理接口。utils/里提供图像预处理、标签格式转换、结果可视化等实用工具；readme.md讲清楚怎么装依赖、怎么改配置、怎么换自己的图片视频；人工智能大作业_流程.md专门拆解课程设计常见步骤，比如如何导出坐标、生成统计表格、做精度对比。所有模型权重已内置，不训练也能立刻看到检测框效果；支持读取本地JPG/PNG图片或MP4视频，输出带框图+置信度+类别标签；报错提示对应文档里的解决方案，适合赶毕设、交大作业、练边缘部署的同学快速验证想法。Python 3.8环境，依赖库版本锁定在requirements.txt里，Windows/Linux/macOS都能跑。

1. 项目概述：为什么航拍目标检测不能直接套用街景模型？

你有没有试过把在COCO或PASCAL VOC上训练好的YOLOv5模型，直接丢进一张无人机俯拍图里跑？我试过三次——第一次是帮学院老师处理一批农业巡检影像，结果行人框得像蚂蚁，车辆连成一片糊状；第二次是带本科生做智能交通课程设计，学生用网上下载的“通用目标检测模型”跑VisDrone验证集，mAP@0.5不到12%；第三次是我自己搭边缘盒子部署时，发现SSD-MobileNetV2在640×480分辨率下漏检率高达43%，尤其对斜停的轿车和遮挡严重的骑车人几乎“视而不见”。这些不是模型不行，而是视角、尺度、密度、遮挡形态的根本性错配。

无人机俯拍图像和地面拍摄存在四个不可忽视的物理差异：第一，目标尺度极小——VisDrone中行人平均像素高度仅12~28px，相当于在1920×1080图中画一个1像素宽的线段；第二，长宽比畸变严重——高空俯视导致车辆呈现近乎正方形轮廓（真实长宽比3:1，图像中接近1:1），而常规模型默认按水平矩形回归；第三，目标密集且粘连——单帧图像常含上百辆汽车，车距小于2个像素，传统NMS阈值设0.45会直接吞掉相邻车辆；第四，背景干扰强——屋顶反光、阴影条纹、纹理相似的砖墙/沥青路面，让模型容易把空调外机当行人、把排水沟当自行车。

这个工具包就是为解决这四个“俯拍特异性问题”而生。它不追求SOTA排行榜上的0.3%提升，而是聚焦可复现、可解释、可交付的工程闭环：从VisDrone原始数据出发，经过标注格式清洗、尺度自适应增强、小目标专用anchor聚类，到YOLOv5与SSD双模型的差异化训练策略，再到轻量级可视化demo的实时推理封装。所有代码都经过实测——我在一台i5-8250U+GTX1050Ti的旧笔记本上完整跑通了全流程，训练耗时控制在12小时内，推理速度稳定在23FPS（1080p视频）。关键词里的“无人机检测”“YOLOv5”“SSD”“VisDrone”“目标检测”，每一个都不是标签，而是对应着具体的技术决策点：比如YOLOv5选的是v5s而非v5l，因为参数量从43M压到14M，更适合后续移植到Jetson Nano；SSD用的是基于ResNet-50的改进版而非VGG16，因后者在小目标召回上差了7.2个百分点；VisDrone数据处理时特意保留了原图的exif方向信息，避免无人机旋转拍摄导致的坐标系偏移。

适合谁用？如果你正在写本科毕设，需要两周内交出“基于无人机图像的交通流量统计系统”，这个包能让你跳过环境配置、数据清洗、模型调试三个最耗时环节，直接进入结果分析和报告撰写；如果你是嵌入式初学者，想把视觉算法部署到树莓派或RK3399开发板，里面yolo/export/onnx/目录下的ONNX导出脚本和量化示例，已经帮你踩平了模型转换的坑；如果你是研究生做算法对比实验，utils/eval/目录里封装了完整的COCO-style评估+VisDrone-specific指标（如small-object recall、occlusion-aware precision），连PR曲线生成代码都写好了。它不是玩具，而是一套经过真实场景压力测试的“最小可行检测栈”。

2. 整体设计思路与双模型选型逻辑

2.1 为什么必须同时集成YOLOv5和SSD？

很多新手会疑惑：既然YOLO系列效果好，为什么还要塞进一个相对老旧的SSD？这不是增加复杂度吗？答案藏在两种模型的底层机制差异里。YOLOv5是典型的单阶段密集预测器，它把整张图划分为76×76、38×38、19×19三级网格，在每个网格点预测多个anchor的偏移量。这种设计对小目标极其友好——VisDrone中最小的行人目标在19×19网格上仍能占据1个完整cell，而SSD的default box机制依赖多层特征图，其最低层特征图（如conv4_3）感受野太小，对远距离小目标定位不准。但YOLOv5也有软肋：当目标密集粘连时（比如停车场斜排的车辆），它的confidence score容易被邻近高分框抑制，导致漏检。SSD则相反，它采用逐层递减的feature map金字塔，高层特征图（如fc7）感受野大，对整体布局敏感，配合自定义的aspect ratio anchor（我们设了1:1, 1:2, 2:1三组），能更好区分并排停放的车辆。

我们做了组对照实验：在VisDrone-val子集上，YOLOv5s对行人检测的Recall@0.5是68.3%，但对车辆只有52.1%；SSD-ResNet50对车辆达到61.7%，行人却只有49.8%。双模型融合后，通过加权置信度投票（YOLO权重0.6，SSD权重0.4），综合Recall提升到63.5%，且漏检模式互补——YOLO漏掉的斜停车辆，SSD能补上；SSD误判的屋顶反光块，YOLO基本过滤掉了。这种“能力错位”正是我们保留双模型的核心逻辑：它不是冗余，而是构建鲁棒性的保险丝。

2.2 VisDrone数据预处理的四个关键动作

VisDrone官方数据集虽公开，但直接拿来训练会踩一堆坑。我们做了四步强制预处理，每一步都有明确物理意义：

第一步：标注文件清洗与坐标归一化校验
VisDrone的原始标注是txt格式，每行包含<object_id> <x_min> <y_min> <width> <height> <score> <category> <truncation> <occlusion>。问题在于：<score>字段实际是人工标注置信度（0/1），但很多开源代码误读为检测分数；<truncation>和<occlusion>描述遮挡程度，但YOLOv5不支持该字段。我们的utils/visdrone_clean.py脚本会自动剔除这两列，并将<score>重置为1（标注即存在），再检查所有坐标是否越界（x_min<0或x_min+width>img_width）。实测发现约3.7%的标注存在越界，主要源于无人机抖动导致的标注框漂移。

第二步：图像尺寸自适应缩放与填充
VisDrone原始图像分辨率从960×540到2048×1536不等。若统一缩放到640×640，小图会被严重拉伸。我们采用“短边对齐+灰边填充”策略：先计算图像短边，将其缩放到640px，长边按比例缩放后，用(114,114,114)灰色填充至640×640。这个114值不是随便选的——它是ImageNet均值[123.675, 116.28, 103.53]的整数近似，能减少归一化误差。更重要的是，填充灰边而非黑边，能避免模型把纯黑区域误学习为“无目标背景”。

第三步：小目标专用anchor聚类
YOLOv5默认anchor是基于COCO数据集k-means聚类得到的（10×13, 16×30…），但VisDrone中目标宽高比集中在1:1~1.5:1之间。我们用utils/anchor_kmeans.py对VisDrone-train中所有标注框重新聚类，得到三组新anchor：（12×14）、（21×23）、（38×42）。实测显示，更换后小目标召回率提升9.2%，且训练收敛更快——因为anchor与真实目标匹配度提高，梯度更新更稳定。

第四步：遮挡感知的数据增强
常规的Mosaic、MixUp增强对VisDrone效果有限，因为它们假设目标独立存在。我们增加了utils/augment_occlusion.py模块：模拟无人机视角下的典型遮挡——用随机大小的黑色矩形覆盖目标（模拟树枝遮挡）、添加高斯噪声斑块（模拟镜头污渍）、以及按VisDrone统计的遮挡率（23.6%）随机丢弃部分标注框。这种增强让模型学会“即使只看到半个车顶，也要猜是车辆”。

2.3 工程结构设计：为什么目录要这样划分？

整个包的目录结构不是随意安排，而是按软件工程的“关注点分离”原则设计：

yolo/和ssd/是两个完全隔离的模型工程，各自包含models/（网络结构定义）、train.py（训练主逻辑）、val.py（验证脚本）、detect.py（推理接口）。这种隔离确保你能单独修改YOLO的损失函数而不影响SSD，也方便后续替换为YOLOv8或RT-DETR。
utils/下的工具按功能域组织：preprocess/处理图像缩放与填充，convert/负责labelImg↔VisDrone↔YOLO格式互转，visualize/提供带置信度热力图的可视化，eval/封装COCO API调用与VisDrone定制指标。特别提醒：utils/convert/voc2yolo.py支持直接导入PASCAL VOC格式数据，如果你有自己采集的地面数据，可以快速迁移。
demo/目录是真正的“一键体验区”：demo_gui.py用PyQt5写了个极简界面，拖入图片/视频即可运行；demo_cli.py是命令行版本，适合服务器端批量处理；demo_web/是Flask轻量Web服务，启动后访问http://localhost:5000即可上传测试。这三个入口覆盖了从本地调试到云端部署的所有场景。

这种结构让你能像搭积木一样工作：想换模型？删掉yolo/整个目录，换成自己的YOLOv8工程；想加新数据？把图片放进data/images/，运行utils/preprocess/batch_resize.py自动处理；想改评估方式？直接修改utils/eval/coco_eval.py里的IoU阈值列表。没有魔法，全是清晰可控的路径。

3. 核心细节解析与实操要点

3.1 YOLOv5模型的关键改造点

虽然用的是YOLOv5官方代码库，但我们做了五处必要改造，每处都针对航拍特性：

改造1：损失函数中的小目标权重提升
YOLOv5默认的CIoU Loss对所有尺度目标一视同仁。我们在models/yolo.py的compute_loss函数中，为宽高均小于32px的目标额外乘以1.5倍权重。计算逻辑很简单：遍历每个预测框，计算其映射回原图的尺寸（需考虑缩放比例），若w<32且h<32，则loss *= 1.5。这个改动让模型更关注小目标的定位精度，实测使行人AP提升4.1%。

改造2：NMS阈值动态调整
VisDrone中目标密集，固定NMS阈值0.45会导致大量漏检。我们实现了一个“密度感知NMS”：先用滑动窗口统计图像局部区域的目标密度（每128×128区域计数），密度>5时自动将NMS阈值从0.45降至0.3，密度<2时升至0.6。代码在utils/postprocess/nms_density.py，只需在detect.py中替换原NMS调用即可。

改造3：推理时的多尺度测试（TTA）简化版
标准TTA需对图像做多尺度缩放再融合，计算开销大。我们采用“双尺度TTA”：主推理用640×640，同时对图像做一次0.8倍缩放（512×512）推理，然后将两组结果按置信度加权融合。实测在保持22FPS的前提下，mAP提升1.8%，且代码仅增加20行。

改造4：类别权重平衡
VisDrone中车辆数量是行人的3.2倍，模型易偏向车辆。我们在data/visdrone.yaml中设置了class_weights: [1.0, 0.31]（行人:车辆），让行人损失放大3.2倍，强制模型重视稀疏类别。

改造5：导出ONNX时的动态轴声明
为适配边缘设备的动态输入，export.py中添加了--dynamic参数，声明batch、height、width为动态维度。这对后续用TensorRT优化至关重要——否则TRT会报错“input shape not fixed”。

提示：所有改造代码都在对应文件中用# UAV-ADAPT:注释标记，方便你快速定位和理解修改意图。不要盲目删除这些注释，它们是你理解航拍适配逻辑的路标。

3.2 SSD模型的ResNet50改进方案

SSD原版用VGG16作为backbone，但VGG在小目标特征提取上存在先天缺陷：其卷积核较大（3×3为主），且池化层过多，导致浅层特征图分辨率低。我们切换为ResNet50，并做了三项关键调整：

调整1：特征金字塔重构
原SSD的feature map来自conv4_3、conv7、conv8_2等层，但conv4_3分辨率太高（128×128），对小目标冗余；conv7又太低（32×32）。我们新增了fpn_layer模块：取res4b22（对应原conv4_3）、res5c（对应原conv7）、以及新增的upsample_res5c（上采样后与res4b22相加），形成三层金字塔。实测res5c上采样后与res4b22融合，能显著提升小目标定位精度。

调整2：default box尺寸重设
原SSD的default box尺寸按公式s_k = s_{min} + (s_{max}-s_{min})*(k-1)/(m-1)计算，但VisDrone中目标尺寸分布更集中。我们手动设定了六层default box的min_size/max_size：[24, 48], [48, 96], [96, 192], [192, 384], [384, 768], [768, 1536]，单位为像素。注意：这是针对640×640输入的绝对尺寸，不是比例。

调整3：难例挖掘（Hard Negative Mining）强化
SSD训练时，负样本远多于正样本，原版按3:1比例采样，但VisDrone中背景复杂，简单负样本（如纯天空）对训练无益。我们改进了hard_negative_mining函数：优先采样与真实目标IoU在0.3~0.5之间的“困难负样本”，这类样本最容易被误判。代码在ssd/layers/modules/multibox_loss.py中，已用# UAV-HNM:标注。

3.3 数据预处理脚本的实操细节

utils/preprocess/下的脚本不是“一键傻瓜式”，而是给你留出了精细调控的空间。以resize_and_pad.py为例，它接受四个关键参数：

python utils/preprocess/resize_and_pad.py \ --src_dir data/raw_images/ \ --dst_dir data/images/ \ --target_size 640 \ --pad_color 114 \ --keep_ratio True

--target_size：不是最终图像尺寸，而是短边目标尺寸。若原图是1920×1080，短边1080→缩放到640，则长边变为1138，再填充至640×640。
--pad_color：必须是整数，范围0~255。114是经过验证的最佳值，若设为0（纯黑），模型在训练初期会把灰边误认为“车辆阴影”。
--keep_ratio：必须为True。设False会导致图像拉伸变形，破坏无人机俯视的几何关系。

另一个重要脚本是utils/convert/visdrone2yolo.py，它处理标注转换。VisDrone的类别ID是1~10（pedestrian, people, bicycle…），但我们只保留1（pedestrian）和4（car），其他类别在转换时被过滤。脚本会自动生成classes.txt，内容为：

pedestrian car

这个顺序决定了模型输出的类别索引——索引0永远是行人，索引1永远是车辆。如果你要加入摩托车，只需修改脚本中的valid_classes = [1, 4, 5]，并确保classes.txt同步更新。

注意：所有预处理脚本都内置了进度条（tqdm）和错误日志。若某张图处理失败，脚本会跳过并记录到error_log.txt，不会中断整个流程。这是为应对VisDrone中少量损坏图像（如EXIF头异常）而设计的容错机制。

4. 实操过程与核心环节实现

4.1 环境配置：Python 3.8的精确依赖管理

依赖管理是新手最容易卡住的环节。我们锁定Python 3.8（非3.9或3.10），因为PyTorch 1.10.2（本包指定版本）对3.8兼容性最佳，且能避免Windows上常见的numpy版本冲突。requirements.txt中所有包都指定了精确版本号，例如：

torch==1.10.2+cu113 torchvision==0.11.3+cu113 opencv-python==4.5.5.64 pycocotools==2.0.6

安装时务必使用pip install -r requirements.txt，而不是pip install -r requirements.txt --upgrade——后者会强行升级所有包，可能破坏CUDA版本匹配。特别提醒：torch和torchvision的+cu113后缀表示CUDA 11.3，如果你的显卡驱动低于465.89，需降级到+cu111版本，我们已在requirements-cu111.txt中提供备选。

Windows用户常见问题：pycocotools安装失败。解决方案是先安装Visual Studio Build Tools（勾选“C++ build tools”），再运行：

pip install cython pip install pycocotools

Linux/macOS用户若遇到libGL.so.1缺失，执行sudo apt-get install libglib2.0-0 libsm6 libxext6 libxrender-dev即可。

4.2 训练流程：从数据准备到模型保存

训练不是“运行train.py就完事”，而是分五步走：

步骤1：数据集划分与路径配置
VisDrone官方已划分train/val/test，但我们需要创建YOLO格式的dataset.yaml。运行：

python utils/prepare_dataset.py --visdrone_root visdrone_detection-master/

该脚本会自动生成data/visdrone.yaml，内容包括：

train: ../data/images/train/ val: ../data/images/val/ nc: 2 names: ['pedestrian', 'car']

步骤2：YOLOv5训练
进入yolo/目录，执行：

python train.py --data ../data/visdrone.yaml --cfg models/yolov5s.yaml --weights '' --batch-size 16 --epochs 100 --name yolov5s_visdrone

关键参数说明：
---weights ''：空字符串表示从零开始训练（不加载预训练权重），因为我们已针对航拍做了anchor重聚类，预训练权重反而有害。
---batch-size 16：在GTX1050Ti上实测最大安全值，更大则OOM。
---name：指定训练结果保存目录，便于后续管理。

步骤3：SSD训练
进入ssd/目录，执行：

python train.py --dataset visdrone --dataset_root ../data/ --save_folder weights/ssd300_visdrone/ --basenet weights/vgg16_reducedfc.pth

注意：basenet参数指向预训练的VGG权重，但我们的ResNet50版本已替换为resnet50.pth，路径在ssd/weights/下。

步骤4：模型验证与指标生成
训练完成后，分别运行：

# YOLOv5验证 python val.py --data ../data/visdrone.yaml --weights runs/train/yolov5s_visdrone/weights/best.pt --task val # SSD验证 python eval.py --trained_model weights/ssd300_visdrone/ssd300_visdrone_100000.pth --dataset visdrone --dataset_root ../data/

两者都会生成详细的评估报告，包括各类别AP、mAP、Recall、Precision。YOLOv5的报告在runs/val/yolov5s_visdrone/results.txt，SSD的在ssd/eval_results/。

步骤5：权重导出与优化
为部署做准备，导出ONNX模型：

# YOLOv5 python export.py --weights runs/train/yolov5s_visdrone/weights/best.pt --include onnx --dynamic # SSD python export_onnx.py --weights weights/ssd300_visdrone/ssd300_visdrone_100000.pth --output ssd300_visdrone.onnx

导出的ONNX文件已包含动态batch支持，可直接用于TensorRT或ONNX Runtime。

4.3 一键推理Demo的三种使用方式

demo/目录提供了开箱即用的体验，无需任何代码修改：

方式1：GUI图形界面（推荐新手）
运行：

python demo/demo_gui.py

界面极简：左侧“选择文件”按钮，支持JPG/PNG/MP4；右侧实时显示检测结果，底部显示FPS、检测总数、各类型数量。点击“保存结果”会生成带框图和CSV统计表（含坐标、置信度、类别）。

方式2：命令行批量处理（适合科研）

# 处理单张图 python demo/demo_cli.py --source data/images/test/000001.jpg --weights yolo/runs/train/yolov5s_visdrone/weights/best.pt --conf 0.3 # 处理整个文件夹 python demo/demo_cli.py --source data/images/test/ --weights ssd/weights/ssd300_visdrone/ssd300_visdrone_100000.pth --conf 0.25 --save-txt

--conf参数控制置信度阈值，VisDrone建议设0.25~0.35；--save-txt会生成YOLO格式的检测结果txt，方便后续分析。

方式3：Web服务（适合团队协作）
启动服务：

cd demo/demo_web python app.py

访问http://localhost:5000，网页上传界面支持拖拽，返回JSON格式结果（含坐标、类别、置信度），可直接被其他系统调用。

实操心得：我在测试时发现，GUI界面在高分辨率显示器上字体过小。解决方案是修改demo_gui.py第42行的self.setFont(QFont("Arial", 10))，将10改为12。这种小调整能让导师演示时看得更清楚——工程细节往往决定交付成败。

5. 常见问题与排查技巧实录

5.1 典型报错速查表

报错信息	根本原因	解决方案	出现场景
`RuntimeError: CUDA out of memory`	batch-size过大或图像分辨率超限	将`--batch-size`从16降至8；或在`resize_and_pad.py`中将`--target_size`从640降至512	训练阶段，尤其在GTX1050Ti等入门显卡上
`ModuleNotFoundError: No module named 'torchvision.ops'`	torchvision版本与torch不匹配	卸载后重装：`pip uninstall torchvision && pip install torchvision==0.11.3+cu113`	环境配置后首次运行train.py
`AssertionError: Image size < 0`	图像文件损坏或路径含中文	检查`data/images/`下是否有0字节文件；确保所有路径不含中文或空格	数据预处理后运行val.py时
`KeyError: 'pedestrian'`	`classes.txt`与模型权重类别数不一致	检查`data/visdrone.yaml`中的`nc`值是否等于`classes.txt`行数；确认`yolo/models/yolov5s.yaml`中`nc: 2`	加载自定义权重进行推理时
`cv2.error: OpenCV(4.5.5) ... error: (-215:Assertion failed) !_src.empty()`	视频文件路径错误或编码不支持	用`ffmpeg -i input.mp4 -c:v libx264 -c:a aac output.mp4`转码；或改用`.avi`格式	运行demo_cli.py处理MP4时

5.2 航拍场景特有的调试技巧

技巧1：用“热力图”定位模型盲区
utils/visualize/heatmap.py能生成置信度热力图。运行：

python utils/visualize/heatmap.py --image data/images/test/000001.jpg --weights yolo/runs/train/yolov5s_visdrone/weights/best.pt

输出的热力图会显示模型认为“最可能是目标”的区域。若热力图集中在图像中心而忽略边缘车辆，说明anchor聚类未覆盖边缘目标尺度——此时应回到utils/anchor_kmeans.py，增加聚类迭代次数或调整初始簇心。

技巧2：遮挡分析工具
utils/eval/occlusion_analysis.py能统计不同遮挡等级（0=无遮挡，1=部分遮挡，2=严重遮挡）下的检测成功率。运行后生成CSV，你会发现：YOLOv5在遮挡等级1时召回率82%，等级2时骤降至41%；而SSD分别为76%和59%。这提示你：若应用场景中严重遮挡多（如树荫下停车场），应侧重优化SSD。

技巧3：跨模型结果对比脚本
utils/compare_models.py能自动加载YOLO和SSD的检测结果，生成对比表格：
| 图像名 | YOLO行人数 | SSD行人数 | 差异 | 主要差异位置 |
|--------|-----------|-----------|------|--------------|
| 000001.jpg | 12 | 15 | +3 | 右上角屋檐下 |
| 000002.jpg | 8 | 7 | -1 | 左侧斜停轿车 |

这个脚本能帮你快速定位哪个模型在哪种场景下更可靠，避免主观臆断。

5.3 毕业设计/课程作业的交付技巧

作为带过十几届学生的过来人，我总结出三个让导师眼前一亮的交付技巧：

技巧1：生成“可验证”的精度报告
不要只贴mAP数字。运行utils/eval/generate_report.py，它会自动生成PDF报告，包含：PR曲线图、各类别AP柱状图、典型漏检/误检案例（带原图和检测图对比）、与论文《VisDrone-Baseline》的精度对比表。导师最看重“你能复现并超越基线”。

技巧2：导出坐标用于GIS分析
utils/export/gis_export.py能将检测框坐标转换为WGS84地理坐标（需提供无人机GPS位置和相机参数）。输出GeoJSON文件，可直接导入QGIS做热力图分析——这会让交通工程方向的导师觉得你“真懂应用”。

技巧3：制作“一分钟演示视频”
用demo_cli.py处理一段30秒视频，用utils/visualize/add_fps.py在画面右上角叠加实时FPS，再用ffmpeg合成带解说的MP4。视频开头说：“本系统在VisDrone数据集上达到mAP@0.5=42.3%，较基线提升7.1%，以下为实时检测效果…”——导师评审时，30秒视频比10页PPT更有说服力。

最后分享个小技巧：所有脚本都支持--help参数，比如python train.py --help会列出所有可调参数及默认值。别急着跑，先花2分钟看帮助文档，能省下半天调试时间。这个工具包的价值，不在于它多炫酷，而在于它把无人机检测中那些“只可意会不可言传”的坑，都变成了可执行、可验证、可交付的代码。

本文还有配套的精品资源，点击获取

查看全文

http://www.gsyq.cn/news/1473845.html