当前位置：首页 > news >正文

YOLOFuse推理输出路径曝光：检测可视化图片存于runs/predict/exp

news 2026/6/30 2:40:11

YOLOFuse推理输出路径解析：检测可视化结果存于`runs/predict/exp`

在夜间监控、智能安防和无人驾驶等现实场景中，单一可见光摄像头常常因低光照、雾霾或遮挡而失效。这时，红外（IR）传感器的优势便凸显出来——它能捕捉热辐射信息，在黑暗环境中依然“看得清”。然而，如何高效融合RGB与红外图像的感知能力，一直是多模态目标检测中的工程难题。

YOLO系列凭借其高速与高精度的平衡，成为工业界首选的目标检测框架。但将YOLO扩展到双模态输入，并实现稳定可靠的训练与推理流程，往往面临环境配置复杂、数据对齐困难、代码依赖混乱等问题。正是在这样的背景下，YOLOFuse应运而生。

作为基于 Ultralytics YOLO 架构开发的专用工具，YOLOFuse 并非简单的学术原型，而是一个真正面向落地的端到端解决方案。它不仅支持多种融合策略，还通过 Docker 容器化封装了完整的运行环境，让开发者无需再为“CUDA 版本不匹配”或“PyTorch 装不上”而烦恼。更关键的是，它的推理结果会自动生成带标注框的可视化图片，并统一保存在一个清晰可查的路径下：runs/predict/exp。

这个看似微小的设计细节，实则极大提升了模型调试效率——你不再需要手动绘制边界框或解析原始张量，只需打开文件夹，就能直观看到模型的表现。

从架构设计看多模态融合的本质

YOLOFuse 的核心思想是“双流处理 + 灵活融合”。它继承了 YOLOv8 的骨干结构，但在输入端进行了关键改造：不再是单通道输入，而是并行接收 RGB 和 IR 图像。

整个网络采用双分支编码器结构，比如两个独立的 CSPDarknet 主干，分别提取可见光与红外特征。根据融合发生的阶段不同，系统支持三种主流策略：

早期融合：将 RGB 和 IR 图像拼接为多通道输入（如 R-G-IR），送入共享主干网络。这种方式信息交互最早，适合纹理与热辐射高度相关的场景。
中期融合：各自提取浅层特征后，在 Neck 部分（如 PANet 或 BiFPN）进行特征图拼接或注意力加权融合。这是目前性能与效率最均衡的选择。
决策级融合：两个分支完全独立输出检测结果，最后通过 NMS 融合或置信度加权投票整合。鲁棒性强，适用于对安全性要求极高的系统，如自动驾驶夜视模块。

实际使用中，选择哪种策略取决于硬件资源和应用需求。例如，在边缘设备 Jetson Nano 上部署时，显存有限，优先考虑参数量最小的中期融合模型（仅 2.61MB），mAP@50 仍可达 94.7%；而在服务器端，则可以启用决策级融合以追求更高的稳定性。

值得一提的是，YOLOFuse 并没有另起炉灶重写整个训练流程，而是深度集成 Ultralytics 官方 API。这意味着你可以继续使用熟悉的train.py和predict.py接口，所有参数命名、日志格式、权重加载机制都保持一致。唯一的改动在于新增了双源输入的支持，比如在推理时需同时指定source_rgb和source_ir。

from ultralytics import YOLO model = YOLO('weights/yolofuse_mid.pt') results = model.predict( source_rgb='datasets/images/test.jpg', source_ir='datasets/imagesIR/test.jpg', imgsz=640, conf=0.25, save=True, project='runs/predict', name='exp' )

这段代码简洁明了，几乎与标准 YOLO 推理无异。唯一的变化是多了source_ir参数，以及内部数据加载逻辑的升级。这种“最小侵入式”的设计哲学，使得 YOLOFuse 既能快速上手，又不会破坏原有生态的兼容性。

数据怎么管？命名即规则

多模态系统的另一个痛点是数据管理。两张来自不同传感器的图像，必须严格对应同一时空场景，否则融合就失去了意义。

YOLOFuse 采用了一种简单却极为有效的解决方案：强制文件名一致 + 目录分离。

具体来说：
- 所有可见光图像存放于datasets/images/
- 对应的红外图像存放于datasets/imagesIR/
- 标签文件复用 RGB 侧的.txt文件，位于datasets/labels/

当数据加载器遍历images/中的000001.jpg时，会自动查找imagesIR/000001.jpg作为配对输入。标签也沿用labels/000001.txt，无需额外标注红外图像。

class DualDataset(torch.utils.data.Dataset): def __init__(self, img_path, imgir_path, label_path, img_size=640): self.img_files = sorted(glob.glob(os.path.join(img_path, "*.jpg"))) self.imgir_files = [f.replace("images", "imagesIR") for f in self.img_files] self.label_files = [f.replace("images", "labels").replace(".jpg", ".txt") for f in self.img_files]

这种设计虽然简单，但却暗含工程智慧：它避免了复杂的数据库索引或时间戳对齐机制，降低了使用门槛。只要你在采集数据时做好同步命名，后续流程便可全自动运行。

当然，这也带来一些注意事项：
- 若某张 IR 图缺失，整个样本会被跳过；
- 不建议用灰度化的 RGB 图冒充 IR 输入，因为缺乏真实的热分布信息，会导致融合失效；
- 大规模数据集推荐使用硬链接或符号链接，避免重复存储浪费空间。

此外，图像预处理建议统一缩放到 640×640，防止因尺寸差异引入几何畸变，影响特征对齐效果。

运行流程：从容器启动到结果查看

为了让用户摆脱“环境地狱”，YOLOFuse 提供了预装好的 Docker 镜像，内含 Ubuntu 20.04、CUDA 11.8、PyTorch 2.0 及完整依赖库。整个项目结构清晰如下：

YOLOFuse 镜像 ├── /root/YOLOFuse/ │ ├── train_dual.py # 训练脚本 │ ├── infer_dual.py # 推理脚本 │ ├── runs/fuse/ # 训练输出目录 │ └── runs/predict/exp/ # 推理结果存放地 ├── datasets/ # 用户数据挂载点 └── weights/ # 预训练权重

进入容器后，执行一次推理只需两步：

cd /root/YOLOFuse python infer_dual.py

脚本默认会读取datasets/images/下的第一张测试图，查找对应的红外图像，完成预处理、前向推理、后处理和结果绘制。最终生成的可视化图片将自动保存至runs/predict/exp。

✅快速查看结果：直接访问/root/YOLOFuse/runs/predict/exp目录，即可看到带有彩色边界框和类别标签的输出图像。每个检测框旁都标注了类别名称与置信度，便于人工审核。

如果你有自己的数据，也可以通过命令行传参指定路径。训练流程同样简洁：

python train_dual.py --data cfg/llvip.yaml --epochs 100 --batch 16

训练过程中启用 Mosaic、MixUp 和 HSV 扰动等增强策略，提升模型泛化能力。最佳权重将保存为runs/fuse/weights/best.pt，TensorBoard 日志同步写入runs/fuse，可通过tensorboard --logdir=runs/fuse实时监控 loss 曲线与 mAP 变化。

对于资源受限场景，还有几个实用技巧：
- 使用--cache将数据集缓存到内存，加快每轮迭代速度；
- 推理时添加--half启用 FP16 半精度，显存占用降低 30%，推理速度提升明显；
- 关闭不必要的增强（如 MixUp）可进一步提高吞吐量，适合实时性要求高的部署。

融合策略怎么选？一张表帮你决策

面对多种融合方式，开发者常陷入选择困境。YOLOFuse 基于 LLVIP 数据集提供了基准对比，帮助用户按需选型：

融合策略	mAP@50	模型大小	显存占用	推荐场景
中期特征融合	94.7%	2.61 MB	~3.2GB	边缘设备部署（Jetson Nano）
早期特征融合	95.5%	5.20 MB	~4.1GB	小目标密集场景
决策级融合	95.5%	8.80 MB	~5.6GB	安防监控中心服务器
DEYOLO	95.2%	11.85 MB	~6.8GB	学术研究复现