news 2026/4/23 22:21:54

YOLOv8 训练FLIR自动驾驶数据集 RGB与红外两种模态 红外可见光多模态车辆行人检测数据集 YOLOV8模型如何训练 自动驾驶多模态感知,研究 红外与可见光融合检测,提升系统在低光照、恶劣天

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
YOLOv8 训练FLIR自动驾驶数据集 RGB与红外两种模态 红外可见光多模态车辆行人检测数据集 YOLOV8模型如何训练 自动驾驶多模态感知,研究 红外与可见光融合检测,提升系统在低光照、恶劣天

FLIR自动驾驶数据集,包含RGB与红外两种模态

该数据集为配准版本,包含4113对训练图像,514对验证图像,515对测试图像
含“bicycle”,“car”,“person”三种类别。

标签为yolo格式,可直接用于yolo目标检测模型训练


1

以下是FLIR 自动驾驶多模态数据集(配准版)的结构化信息表格:

项目内容说明
数据集名称FLIR Aligned Dataset(配准版)
模态类型双模态:
RGB 图像(可见光)
红外图像(热成像,LWIR)
图像对数量5,142 对(每对包含 1 张 RGB + 1 张 红外图,严格空间配准)
数据划分
– 训练集4,113 对
– 验证集514 对
– 测试集515 对
目标类别3 类(适用于自动驾驶感知):
person(行人)
bicycle(自行车/骑车人)
car(汽车)
标签格式YOLO 格式(.txt)
• 每张图像对应一个.txt文件
• 内容:class_id x_center y_center width height(归一化坐标)
• 可直接用于 YOLOv5/v8 等模型训练
图像分辨率红外图:640 × 512
RGB 图:1280 × 1024(部分版本已下采样对齐至 640×512)
配准方式已通过硬件+软件完成像素级对齐,RGB 与红外图像中的同一目标位置一致
适用任务• 多模态目标检测(RGB + 红外融合)
• 夜间/低光照场景感知
• 热成像目标检测
• 模态互补学习
典型应用场景自动驾驶(尤其夜间、雾天、强眩光等恶劣视觉条件)、智能交通监控、ADAS 系统
优势特点- 红外不受光照影响,可全天候工作
- RGB 提供纹理与颜色信息
- 配准后便于特征融合或双流网络训练

📁 博主推荐目录结构(用于 YOLO 训练)

flir_dataset/ ├── images/ │ ├── train/ │ │ ├── rgb/ # RGB 图像(.jpg) │ │ └── thermal/ # 红外图像(.jpg) │ ├── val/ │ │ ├── rgb/ │ │ └── thermal/ │ └── test/ │ ├── rgb/ │ └── thermal/ └── labels/ ├── train/ # YOLO .txt 标签(通常基于红外图标注) ├── val/ └── test/

💡注意

  • 官方 FLIR 数据集的 YOLO 标签通常以红外图像为基准生成(因热成像目标更清晰);
  • 若需在RGB 图上使用相同标签,需确保图像已配准(本数据集已满足)。

✅ 支持的训练方式

方案说明
单模态训练(红外)使用thermal/图像 + YOLO 标签,适合夜间场景
单模态训练(RGB)使用rgb/图像 + 相同标签(依赖配准精度)
双模态融合训练构建双流网络(如 early/late fusion),输入 [RGB + 红外] 通道

📊 性能预期(YOLOv8n,红外模态)

指标预期值
mAP@0.5 (person)≥ 0.85
mAP@0.5 (car)≥ 0.90
mAP@0.5 (bicycle)≥ 0.75(因目标小、易遮挡)

🔍总结:该数据集是自动驾驶多模态感知的优质资源,特别适合研究红外与可见光融合检测,提升系统在低光照、恶劣天气下的鲁棒性。标签为标准 YOLO 格式,可“开箱即用”进行模型训练。

以上文字及代码仅供参考

FLIR 自动驾驶多模态数据集(含 RGB + 红外图像,YOLO 格式标签),提供完整、 YOLOv8 训练方案,包含数据准备、模型配置和代码。


✅ 一、前提条件

  • 数据集结构如下(假设你已解压并整理好):
    flir_dataset/ ├── images/ │ ├── train/ # 包含 rgb/ 和 thermal/ 子目录 │ ├── val/ │ └── test/ └── labels/ ├── train/ ├── val/ └── test/
  • 标签为 YOLO 格式(.txt),基于红外图像尺寸(640×512)归一化。
  • 安装环境:
    pipinstallultralytics opencv-python numpy matplotlib tqdm

🎯 二、训练策略选择

策略适用场景推荐度
1. 单模态:仅用红外图夜间/低光照检测,标签对齐最准⭐⭐⭐⭐⭐(推荐入门)
2. 单模态:仅用RGB图白天场景,依赖配准精度⭐⭐⭐
3. 双模态融合(RGB+红外)全天候鲁棒检测,需自定义模型⭐⭐⭐⭐(进阶)

💡建议初学者先从策略1(红外单模态)开始,效果稳定且无需修改模型。


🔧 三、方案1:单模态训练(红外图像)

步骤 1:创建data.yaml

# flir_thermal.yamlpath:./flir_datasettrain:images/train/thermalval:images/val/thermaltest:images/test/thermalnc:3names:['person','bicycle','car']

📌 注意:YOLO 标签必须与thermal/图像一一对应(文件名相同)。

步骤 2:训练脚本(train_thermal.py

# train_thermal.pyfromultralyticsimportYOLO# 加载预训练模型model=YOLO('yolov8n.pt')# 或 yolov8s.pt# 开始训练results=model.train(data='flir_thermal.yaml',epochs=100,imgsz=640,# 与红外图高度匹配(640x512 → 自动填充为640x640)batch=16,name='flir_thermal_yolov8n',device=0,patience=20,hsv_h=0.01,hsv_s=0.5,hsv_v=0.3,degrees=5.0,mosaic=0.8)print("✅ 红外单模态训练完成!")

优势:红外图像不受光照影响,行人/车辆热信号清晰,mAP 通常更高。


🌈 四、方案2:单模态训练(RGB图像)

⚠️ 前提:确保 RGB 图像已下采样并配准到 640×512,否则标签坐标不匹配!

修改data.yaml

# flir_rgb.yamlpath:./flir_datasettrain:images/train/rgbval:images/val/rgbtest:images/test/rgbnc:3names:['person','bicycle','car']

🔧 若原始 RGB 是 1280×1024,需先预处理为 640×512(保持标签有效):

# resize_rgb.py(一次性预处理)importcv2frompathlibimportPath rgb_dir=Path("flir_dataset/images/train/rgb")out_dir=Path("flir_dataset/images/train/rgb_640")out_dir.mkdir(parents=True,exist_ok=True)forimg_pathinrgb_dir.glob("*.jpg"):img=cv2.imread(str(img_path))resized=cv2.resize(img,(640,512))# 注意:FLIR 红外是 640x512cv2.imwrite(str(out_dir/img_path.name),resized)

然后将train/rgb_640用于训练。


🔀 五、方案3:双模态融合训练(进阶)

YOLOv8 原生不支持四通道输入(RGB + 红外 = 4通道),需自定义模型头

方法:将红外图作为第4通道拼接到RGB

步骤 1:构建四通道图像(预处理)
# merge_rgb_thermal.pyimportcv2importnumpyasnpfrompathlibimportPathdefmerge_modalities(rgb_dir,thermal_dir,output_dir):output_dir=Path(output_dir)output_dir.mkdir(parents=True,exist_ok=True)forrgb_pathinPath(rgb_dir).glob("*.jpg"):thermal_path=Path(thermal_dir)/rgb_path.nameifnotthermal_path.exists():continuergb=cv2.imread(str(rgb_path))# (512, 640, 3)thermal=cv2.imread(str(thermal_path),0)# (512, 640) 灰度# 将 thermal 扩展为3通道 or 直接拼成4通道thermal_3ch=np.stack([thermal]*3,axis=-1)# 可选:复制为3通道# 或者保留为1通道:merged = np.dstack([rgb, thermal]) → (512,640,4)# 这里我们简单拼成4通道merged=np.dstack([rgb,thermal])# (H, W, 4)np.save(output_dir/(rgb_path.stem+".npy"),merged)# 示例merge_modalities("flir_dataset/images/train/rgb_640","flir_dataset/images/train/thermal","flir_dataset/images/train/fused")
步骤 2:修改 YOLOv8 模型输入层(需自定义)

超出标准 YOLOv8 范围,建议使用Ultralytics 的自定义模型功能或改用MMDetection/Detectron2

📌简化替代方案
训练两个单模态模型(RGB + 红外),推理时融合检测结果(如 NMS 融合)。


🔍 六、推理与评估

# detect_thermal.pyfromultralyticsimportYOLO model=YOLO('runs/detect/flir_thermal_yolov8n/weights/best.pt')# 检测红外图像results=model('flir_dataset/images/val/thermal/00001.jpg')results[0].show()# 显示结果# 评估 mAPmetrics=model.val(data='flir_thermal.yaml')print(f"mAP50:{metrics.box.map50:.3f}")

📊 七、预期性能(红外模态,YOLOv8n)

类别mAP@0.5说明
person~0.88热信号强,易检测
car~0.92发动机发热明显
bicycle~0.75目标小,需高分辨率


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:47:04

Qwen3-VL网页自动化:电商平台爬虫实战案例

Qwen3-VL网页自动化:电商平台爬虫实战案例 1. 引言:视觉语言模型如何重塑网页自动化 随着电商行业竞争加剧,自动化数据采集、页面理解与交互操作已成为提升运营效率的核心手段。传统爬虫依赖规则解析HTML结构,在面对动态渲染、复…

作者头像 李华
网站建设 2026/4/23 15:28:16

微信小程序城市路边停车巡检系统_zd0s65l7

文章目录微信小程序城市路边停车巡检系统_zd0s65l7摘要主要技术与实现手段系统设计与实现的思路系统设计方法java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!微信小程序城市路边停车巡检系统_zd0s65l7摘要 该系…

作者头像 李华
网站建设 2026/4/23 12:20:28

AhabAssistantLimbusCompany智能助手:重新定义游戏自动化体验

AhabAssistantLimbusCompany智能助手:重新定义游戏自动化体验 【免费下载链接】AhabAssistantLimbusCompany AALC,大概能正常使用的PC端Limbus Company小助手 项目地址: https://gitcode.com/gh_mirrors/ah/AhabAssistantLimbusCompany 在现代游戏…

作者头像 李华
网站建设 2026/4/23 10:46:53

单目深度估计终极指南:快速掌握三维视觉核心技术

单目深度估计终极指南:快速掌握三维视觉核心技术 【免费下载链接】monodepth2 [ICCV 2019] Monocular depth estimation from a single image 项目地址: https://gitcode.com/gh_mirrors/mo/monodepth2 还在为昂贵的深度传感器发愁吗?想要让普通摄…

作者头像 李华
网站建设 2026/4/23 12:13:25

Qwen3-VL建筑设计:平面图解析实战案例

Qwen3-VL建筑设计:平面图解析实战案例 1. 引言:AI赋能建筑设计的新范式 随着大模型技术的演进,视觉-语言模型(VLM)正逐步渗透到专业垂直领域。在建筑设计行业,图纸解析、空间布局理解与自动化设计建议等任…

作者头像 李华
网站建设 2026/4/23 10:47:35

Qwen3-VL知识图谱:视觉实体链接

Qwen3-VL知识图谱:视觉实体链接 1. 引言:Qwen3-VL-WEBUI 与视觉实体链接的融合价值 随着多模态大模型在真实场景中的广泛应用,如何将视觉内容与结构化知识体系(如知识图谱)进行有效对齐,成为提升AI系统认…

作者头像 李华