YOLOFuse性能优化路线图：下一版本将支持动态推理-深圳市維司達科技有限公司

YOLOFuse性能优化路线图：下一版本将支持动态推理

在智能安防、自动驾驶和夜间监控等现实场景中，摄像头不再只是“看得见”，更要“看得清”——尤其是在低光照、烟雾弥漫或伪装干扰的极端条件下。传统基于可见光的目标检测模型（如YOLOv8）虽然高效，但在黑暗环境中往往力不从心。这时，红外（IR）传感器的优势就凸显出来了：它能捕捉物体的热辐射特征，即使在完全无光的情况下也能保留目标轮廓。

于是，RGB-红外双模态融合检测成为突破感知瓶颈的关键路径。而YOLOFuse正是为此而生——一个专为多模态视觉任务设计的端到端框架，在保持YOLO系列轻量高效的同时，深度融合可见光与热成像信息，显著提升复杂环境下的鲁棒性。

但问题也随之而来：真实世界的输入从来不是整齐划一的。不同设备输出分辨率各异，某些时刻甚至可能只有一路信号可用（比如红外相机故障）。当前大多数多模态系统仍依赖固定尺寸输入和静态计算图，部署灵活性严重受限。面对这种不确定性，模型能否“自适应”？答案即将揭晓。

双流架构不只是并行处理

YOLOFuse 的核心是双流融合网络结构，其灵感来源于人类大脑对多感官信息的整合机制。想象一下，你在浓雾中开车，眼睛看不清前方，但车上的热成像仪却能识别出行人轮廓——这就是模态互补的力量。

技术上，YOLOFuse 使用两个独立的主干网络（Backbone），分别处理 RGB 和 IR 图像。这两个网络可以共享权重（参数复用），也可以独立训练，取决于数据分布与任务需求。以 CSPDarknet 为例，每条支路都会提取出多层次的特征图，随后根据配置选择融合时机：

早期融合：直接在输入层拼接通道（如6通道输入），让网络从底层学习跨模态关联；
中期融合：在 Neck 层前（如 SPPF 或 FPN 输入处）合并特征图，兼顾表达能力与计算效率；
决策级融合：各自完成检测头输出后，通过加权 NMS 或置信度投票进行结果整合。

其中，中期融合被验证为最优平衡点。我们曾在 LLVIP 数据集上做过对比实验：相比单模态 YOLOv8，YOLOFuse 在夜间场景下 mAP@50 提升超过 12%，最高达到95.5%；而相比于手工拼接或多模型堆叠的传统方法，深度特征融合更能挖掘跨模态语义相关性，避免浅层融合带来的噪声放大问题。

来看一段关键代码实现：

def forward(self, x_rgb, x_ir): feat_rgb = self.backbone_rgb(x_rgb) feat_ir = self.backbone_ir(x_ir) # 中期融合：通道拼接 + 特征增强 fused_feat = torch.cat([feat_rgb, feat_ir], dim=1) out = self.neck(fused_feat) return self.head(out)

这段逻辑看似简单，实则经过大量调优。torch.cat(dim=1)沿通道维度拼接，意味着后续 Neck 结构必须能够处理翻倍的通道数。为此，我们在 FPN 设计中引入了分组卷积与通道注意力模块（如 SimAM），有效缓解了因特征膨胀带来的显存压力。

更重要的是，整个网络支持端到端联合训练，而非两阶段微调。这意味着梯度会反向传播至两个分支，促使模型自动学习哪些区域需要依赖红外线索、哪些可由纹理主导，真正实现“智能加权”。

动态推理：让模型学会“随机应变”

如果说双流融合解决了“看得全”的问题，那么接下来要攻克的就是“用得活”。

目前主流深度学习框架（PyTorch/TensorFlow）默认采用静态图执行模式，要求输入张量具有固定 shape。这在实验室环境下尚可接受，但在实际部署中却成了绊脚石。举个例子：

某园区安防系统配备了多种型号摄像头，有的输出 640×640，有的则是 1024×768；某次夜间巡检时，红外模块突发故障，只剩可见光图像可用……此时，如果模型无法适配这些变化，整个系统就会中断。

这正是我们正在推进的核心升级：下一代 YOLOFuse 将全面支持动态推理。

具体来说，新版本将具备以下能力：

✅ 支持320×320 至 1280×1280 范围内任意输入尺寸，无需预处理裁剪或填充；
✅ 当仅提供 RGB 输入时，模型自动切换为单流模式运行，保障服务连续性；
✅ 自动识别输入模态类型，并动态调整网络路径（例如跳过空缺分支）；
✅ 导出 ONNX/TensorRT 模型时保留动态轴定义，便于边缘部署。

这一切的背后，依赖于几项关键技术支撑：

1. 动态 Shape 导出（ONNX）

通过torch.onnx.export的dynamic_axes参数，明确声明哪些维度是可变的：

torch.onnx.export( model, (dummy_input_rgb, dummy_input_ir), "yolofuse_dynamic.onnx", input_names=["input_rgb", "input_ir"], output_names=["output"], dynamic_axes={ "input_rgb": {0: "batch", 2: "height", 3: "width"}, "input_ir": {0: "batch", 2: "height", 3: "width"}, "output": {0: "batch", 1: "anchors"} }, opset_version=13 )

这里我们将height和width标记为动态轴，使得推理引擎可以在运行时接受不同分辨率输入。注意：opset_version 需 ≥13 才能保证 reshape、transpose 等操作的正确性。

2. 内部层兼容性改造

并非所有操作都天然支持任意尺寸。例如：

固定 size 的 AdaptiveAvgPool 是安全的；
而使用view(-1, C*H*W)进行展平的操作则可能导致错误。

因此，我们在 Neck 和 Head 中替换了部分硬编码操作，改用动态 reshape 与 padding 策略。同时，Anchor 设计也改为基于相对比例而非绝对像素位置，确保在不同尺度下仍能有效覆盖目标。

3. 推理延迟可控增长

当然，动态性也会带来一定代价。我们在 Titan RTX 上测试了不同分辨率下的推理耗时：

分辨率	推理延迟
320p	8ms
640p	14ms
1080p	22ms

可以看出，延迟随分辨率近似线性增长，未出现阶跃式飙升。这对边缘设备尤为重要——你可以根据算力预算灵活调节输入大小，在速度与精度之间找到最佳平衡点。

实际应用场景中的价值体现

回到最初的问题：这套系统到底能解决什么？

让我们看看典型部署流程：

[RGB Camera] ----→ [Preprocess] → \ → [Dual-Stream Fusion Network] → [Detection Head] → [Output] [IR Camera] ----→ [Preprocess] → /

前端同步采集配对图像，预处理后送入双流网络。检测结果经 NMS 后输出边界框与类别概率，最终用于告警、跟踪或决策控制。

目前所有组件已封装进社区镜像，位于/root/YOLOFuse目录，开箱即用。首次运行只需修复 Python 软链接即可：

ln -sf /usr/bin/python3 /usr/bin/python

然后便可快速启动推理或训练任务：

# 运行双模态推理 demo python infer_dual.py # 开始训练（使用 LLVIP 或自定义数据） python train_dual.py

更进一步，未来版本还将支持实时视频流接入，模型自动识别输入格式并动态调整行为。例如当检测到只有 RGB 流输入时，日志会提示：

[WARNING] IR input missing, switching to RGB-only mode...

并自动启用备份路径，继续提供基础检测服务。

这种“降级不失效”的设计理念，正是面向工业落地的关键考量。

工程实践中的细节打磨

除了算法创新，我们也非常重视工程层面的可用性。以下是几个关键设计建议：

数据配准必须严格对齐：RGB 与 IR 图像需时间戳同步，最好通过硬件触发实现；若为后期配准，推荐使用 SIFT+RANSAC 或深度配准网络（如 DeepVCP）。
命名规范简化管理：训练时两模态图像应同名存放于images/与imagesIR/文件夹，标签文件复用 RGB 对应.txt即可。
显存优化策略：
中期融合参数最少（约 2.61 MB 新增），适合嵌入式平台；
决策级融合虽精度高，但需双倍 Backbone 计算，内存占用更大。
动态推理调试技巧：
先在固定尺寸下验证模型功能正确；
再逐步放开动态轴限制，观察输出稳定性；
最终在 TensorRT 中启用profile.set_shape()设置合理范围。