YOLOFuse地铁安检智能辅助系统-深圳市維司達科技有限公司

YOLOFuse地铁安检智能辅助系统

在早晚高峰的地铁站口，成千上万的乘客鱼贯而过，安检通道前排起长队。安检员盯着X光机屏幕，目光扫过层层叠叠的背包轮廓——但疲劳、逆光、遮挡、低照度……这些因素时刻威胁着漏检的风险。传统视觉系统在昏暗环境下识别率骤降，而金属物品若被藏于衣物内，更是难以察觉。

这正是当前城市轨道交通安防面临的现实困境：高通量、低容错、环境多变。单一可见光检测已无法满足全天候精准识别的需求。有没有一种方案，能在烟雾弥漫的隧道里看清包裹内容？在深夜无灯的站厅中准确捕捉异常热源？答案是：融合。

于是，我们看到了YOLOFuse——一个专为双模态安检场景打造的智能辅助系统。它不只是一套算法模型，更是一个从数据输入到部署落地全链路打通的技术闭环。其核心思路很清晰：用红外补可见光之短，以融合破单模局限。

双流架构：让两种“眼睛”协同工作

YOLOFuse 的起点，是一种被称为“双流网络”的设计。想象一下，系统配备了两双眼睛：一双看颜色与纹理（RGB），另一双感知热量分布（IR）。两者同步观察同一场景，并将信息分别送入两个独立但结构对称的骨干网络。

这种机制的关键在于互补性。比如，一把藏在衣服里的刀具，在可见光下可能仅表现为轻微隆起；但在红外图像中，由于人体与金属导热差异，会形成明显的冷区或边缘热梯度。通过联合分析这两类信号，系统能更可靠地判断是否存在违禁品。

为了确保融合有效，输入必须严格对齐：每张001.jpg在images/和imagesIR/目录下都得存在，且来自同一时刻、同一视角。命名一致、时间同步、空间配准——这是硬性要求。一旦错位，就像左右眼看到的画面不一致，结果只会是“视觉眩晕”。

有意思的是，训练时只需要基于 RGB 图像做标注。系统自动复用这份标签来监督红外分支的学习过程。这意味着你不必额外标注上千张红外图，大大降低了数据准备成本。当然，这也依赖于良好的跨模态特征对齐能力——毕竟，模型得知道“这个热斑”对应的是“那个包”。

如果只有单模态数据怎么办？其实也不建议强行跑双流流程。不如直接使用标准 YOLOv8，避免资源浪费和逻辑混乱。YOLOFuse 的价值，恰恰体现在真正拥有双通道采集条件的场景中。

融合策略：从像素拼接到智能加权

真正决定性能上限的，是融合方式的选择。不是简单地把两张图叠在一起就行，关键在于在什么层级、以何种方式整合信息。

目前主流有三种路径：

早期融合：在输入层就将 RGB 与 IR 的像素值拼接成 4 通道（如 R/G/B/I），然后送入统一网络处理。这种方式让网络从底层就开始学习跨模态表示，理论上感知更完整，但参数膨胀明显，且容易造成特征混淆。
中期融合：各自提取特征至中间层（比如 C2f 模块之后），再进行特征图拼接或通过注意力机制加权融合。这样既保留了模态独立性，又实现了高层语义交互，属于精度与效率的折中选择。
决策级融合：两支网络完全独立运行，各自输出检测框后，再通过 NMS 或置信度加权合并结果。耦合最弱，鲁棒性强，适合两模态差异较大的情况，但计算开销最大，实时性差。

此外，项目还集成了前沿方法 DEYOLO——一种基于动态增强的自适应融合机制，能在特征金字塔中根据目标大小调整融合权重，特别有利于小目标检测。

根据 LLVIP 数据集上的实测表现：

融合策略	mAP@50	模型大小	特点说明
中期特征融合	94.7%	2.61 MB	参数最少，性价比最高，推荐默认使用
早期特征融合	95.5%	5.20 MB	精度略高，适合小目标敏感场景
决策级融合	95.5%	8.80 MB	鲁棒性强，计算开销较大
DEYOLO	95.2%	11.85 MB	学术前沿方案，资源消耗大

可以看到，中期融合以不到三成的参数量达到了接近最优的精度，堪称“性价比之王”。对于边缘设备而言，这是极为理想的选择。而服务器端若有充足算力，则可尝试 DEYOLO 探索极限性能边界。

代码实现上，整个融合逻辑被封装在train_dual.py与infer_dual.py中。以下是一个简化的推理流程示意：

def forward_fusion(rgb_img, ir_img, fusion_type="mid"): rgb_feat = rgb_backbone(rgb_img) ir_feat = ir_backbone(ir_img) if fusion_type == "early": fused_feat = torch.cat([rgb_feat, ir_feat], dim=1) elif fusion_type == "mid": rgb_feat_mid = rgb_neck(rgb_feat) ir_feat_mid = ir_neck(ir_feat) fused_feat = attention_fuse(rgb_feat_mid, ir_feat_mid) # 如 CBAM 或 SE 模块 else: # decision-level det_rgb = head_rgb(rgb_feat) det_ir = head_ir(ir_feat) return nms_merge(det_rgb, det_ir) return detection_head(fused_feat)

这段伪代码揭示了不同策略的本质区别：早期融合靠torch.cat实现通道拼接；中期融合引入注意力模块进行加权融合；决策级则完全分离，最后才合并输出。实际工程中，可通过配置文件一键切换模式，无需修改主干代码。

基于 Ultralytics 的高效集成

YOLOFuse 并非从零构建，而是深度依托 Ultralytics YOLO 框架。这一选择带来了显著优势。

首先，YOLOv8 本身具备 Anchor-Free 设计、解耦检测头、C2f 结构等先进特性，在速度与精度之间取得了良好平衡。更重要的是，它的模块化架构允许我们在不破坏原有训练流程的前提下，轻松插入双流结构与融合组件。

具体来说，YOLOFuse 复制了一份相同的骨干网络用于红外分支，在 Neck 层注入融合模块，形成“双编码器-单解码器”结构。整个过程继承了 Ultralytics 的 Trainer 类，重写了 DataLoader 支持双模态读取，并保留了 CLI 接口风格：

cd /root/YOLOFuse python train_dual.py

虽然命令简洁如原版 YOLO，但背后已完成复杂的双流调度。这种“接口透明、内核增强”的设计理念，极大降低了用户的上手门槛。熟悉yolo detect train的开发者几乎可以无缝迁移。

同时，得益于 Ultralytics 对 ONNX 导出的原生支持，模型可轻松转换为 TensorRT 或 OpenVINO 格式，部署至 Jetson、瑞芯微等边缘平台。这对于需要本地化运行、低延迟响应的安检系统尤为重要。

实际部署：不只是算法，更是工程闭环

在真实的地铁安检场景中，YOLOFuse 的部署架构如下：

[摄像头阵列] ├── RGB Camera → 图像 → images/ └── IR Camera → 图像 → imagesIR/ ↓ [YOLOFuse 推理引擎] ↓ [检测结果可视化 & 报警触发] ↓ [安检终端显示界面]

前端采用双通道摄像设备，确保时空同步；边缘节点运行 Docker 化的 YOLOFuse 镜像，完成实时推理；后端管理平台接收报警事件，记录日志并支持远程更新。

项目目录结构清晰：

train_dual.py：训练入口
infer_dual.py：推理入口
runs/fuse：保存训练权重与日志
runs/predict/exp：保存检测可视化图像

首次运行只需一行命令建立 Python 软链接：

ln -sf /usr/bin/python3 /usr/bin/python

随后即可执行推理 Demo：

cd /root/YOLOFuse python infer_dual.py

结果图像将自动输出至runs/predict/exp，便于人工验证效果。

针对仅有 RGB 数据的情况，系统提供了一种“冒充”调试技巧：将 RGB 图像复制到imagesIR/目录下作为伪红外输入。虽无实际融合意义，但足以验证流程完整性，非常适合开发初期快速验证 pipeline 是否通畅。

解决的问题与工程考量

YOLOFuse 并非纸上谈兵，而是直面一线痛点：

实际问题	技术解决方案
夜间或隧道内光线不足导致漏检	引入红外图像，依靠热辐射特性检测人体携带物品
乘客遮挡、背包重叠造成误判	双模态融合增强特征表达，提高遮挡情况下的召回率
安检员疲劳引发漏报	提供AI辅助预警，自动标记可疑目标
系统部署复杂、调试困难	提供完整Docker镜像，依赖预装，一键运行

在工程实践中，还需注意几项关键细节：

硬件选型：建议使用 NVIDIA GPU（如 Jetson AGX Orin 或 RTX 3060 及以上），显存 ≥8GB。FP16 混合精度推理可显著提升吞吐量；
数据规范：图像尺寸统一为 640×640，避免动态 resize 影响性能；标注文件遵循 YOLO 格式（class_id center_x center_y width height），归一化处理；
模型策略：
- 边缘部署优先选用“中期特征融合”模型（2.61MB），兼顾精度与速度；
- 服务器端可尝试 DEYOLO 或早期融合，追求极致精度；
系统健壮性：
- 添加异常捕获机制，防止某一支路图像丢失导致崩溃；
- 设置超时重试，应对短暂通信中断；

这些看似琐碎的细节，往往决定了系统能否长期稳定运行。YOLOFuse 的价值不仅在于算法创新，更在于它把这些实践经验沉淀进了默认配置与文档指引之中。