基于混合深度学习模型的混凝土柱蜂窝缺陷实时检测与定位-深圳市維司達科技有限公司

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12214667/pdf/41598_2025_Article_6971.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出一种基于深度学习的混合模型，结合YOLOv5与Mask R-CNN两种算法，实现混凝土结构蜂窝缺陷的检测与实例分割。

PART/1

概述

该方法兼具YOLOv5的快速目标检测优势与Mask R-CNN的高精度实例分割能力，可对结构图像中的缺陷区域进行高效识别与定位。研究采用包含1991张标注图像的硅基数据集开展模型训练与性能验证，并在系统中集成优化后的预处理、归一化及非极大值抑制（NMS）算法，以保障模型的稳定性与最优性能。实验结果表明，该模型的训练准确率达98.26%，验证准确率达97.80%；在各项性能指标上均表现优异，其中骰子相似系数（DSC）为0.9210、马修斯相关系数（MCC）为0.9620、平均精度均值（mAP）为0.9752、F1分数为0.9835、精确率为0.9843、召回率为0.9812、精确率-召回率曲线下面积（PR-AUC）为0.9752、交并比（IoU）为0.9515、校准曲线误差为0.1800。该方法具备检测精度高、泛化能力强、分割效果稳定的特点，适用于建筑工程现场结构缺陷检测及土木基础设施健康监测。

PART/2

背景

蜂窝缺陷是混凝土建筑中因振捣不密实、振捣作业不到位或配合比设计不合理引发的隐蔽性病害。这类呈蜂窝状分布的孔洞不仅会降低混凝土结构的稳定性、造成原材料浪费，还会增加混凝土的渗透概率，大幅提升钢筋因锈蚀而开裂的风险。因此，精准识别与诊断蜂窝缺陷，对于土木工程师、建筑行业从业者及基础设施运维团队而言至关重要。以图像处理与计算机视觉技术为代表的前沿手段，为构建自动化的蜂窝缺陷检测与分类系统提供了可能。传统蜂窝缺陷检测依赖人工目视检查，存在耗时久、主观性强、易产生人为误差等弊端，因此，研发一套高效、精准、自动化的检测方案，实现蜂窝缺陷的准确定位与识别，具有重要的现实意义。近年来，基于计算机视觉与深度学习的创新方法，能够对混凝土结构图像进行实时分析，助力现场人员快速完成评估与决策。除此之外，学术界还提出了机器学习、深度学习模型及图像处理算法等多种技术路径，用于混凝土结构蜂窝缺陷检测。其中，传统检测方法包括边缘检测、轮廓分析与形态学运算，而新一代检测方案则转向卷积神经网络（CNN），并通过优化CNN网络架构进一步提升检测精度。

然而，现有检测方法普遍存在计算成本高昂的问题，且模型性能高度依赖大规模标注数据集，同时对光照变化与复杂环境条件较为敏感。此外，如何在图像中精准定位蜂窝缺陷的位置，仍是当前技术体系亟待突破的核心难点。基于此，对现有检测方法进行革新升级，推动缺陷评估流程的自动化，已成为行业发展的必然趋势。

在环境影响因素愈发复杂多变的背景下，本研究提出的机器学习算法采用混合技术路线，将深度学习与优化后的传统方法相融合，以此提升检测系统的整体效率与抗干扰能力。通过构建低依赖大规模标注数据集的深度神经网络（DNN），本研究将面向特定领域的特征工程融入通用化模型训练流程，有效缓解了多样化数据采集的瓶颈问题。同时，所提技术方案能够解决缺陷精准定位的难题，这也是传统检测模型难以实现的功能。

众多研究已证实深度学习在图像结构特征检测任务中的显著优势，例如韩等人的研究成果，为本文所提方法的可行性提供了有力支撑。

PART/3

新算法框架解析

本文选用由YOLOv5与Mask R-CNN构成的混合模型，因其兼具快速检测能力与高精度分割性能，表现优于现有多数方案。其中，YOLOv5是极具潜力的实时目标检测模型，能够以高置信度定位蜂窝缺陷；而Mask R-CNN则在目标分类、基于像素级掩码的实例分割任务中表现突出，可精准勾勒缺陷边界。综上，混合模型可同时满足检测速度与精度的需求，这两项性能指标对于土木工程领域高效的结构健康监测至关重要。此外，在“非极大值抑制（NMS）”相关章节中会介绍，NMS是一种后处理技术，用于剔除冗余检测框。以上均为所提方法采用的基础理论。

YOLOv5（单次检测算法）

YOLOv5是当前最先进的深度学习实时目标检测与识别模型，基于PyTorch框架开发，支持单次正向传播检测。具体而言，图像数据仅需经过神经网络一次正向运算，即可完成检测任务。凭借这一优势，该模型能够在保证检测精度的同时实现高速运算，因此除安防监控领域外，还广泛适用于自动驾驶系统与工业检测场景。

如图1所示，YOLOv5模型的架构由三个核心部分组成：

1.骨干网络：YOLOv5采用CSPDarknet53作为骨干网络，这是一种经过优化的Darknet架构。该网络可高效提取实时目标检测所需的特征，同时简化计算复杂度。

2.颈部网络：引入路径聚合网络（PANet），以此强化特征融合效果，提升多尺度目标的检测性能。

3.密集预测：YOLOv5的密集预测机制，是指对图像中每个像素的目标属性进行预测，这一设计能更高效地检测不同尺寸、不同位置的目标。

在建筑结构健康监测系统中，YOLOv5可有效识别并定位混凝土结构中的蜂窝缺陷。此类缺陷由振捣不密实所致，会使混凝土内部形成空隙及连通性孔洞。YOLOv5具备以下优势：

1.实时检测：可助力工作人员及时处理或消除蜂窝缺陷。

2.自动化检测：自动化流程可降低人工检测的不确定性，提升整体检测效率。

3.高精度检测：能够清晰识别各类缺陷，为结构安全评估提供可靠依据。

4.高性价比：在实现大面积监测的同时，大幅降低检测成本。

工程师可将结构健康监测系统与YOLOv5 算法相集成，避免损伤反复出现，进而保障混凝土结构的施工安全与长期耐久性。

掩码区域卷积神经网络（Mask R-CNN）

如图2所示，Mask R-CNN是更快的区域卷积神经网络（Faster R-CNN）的改进版本，专门用于目标分类任务。该模型不仅能检测并分类目标，还可针对所有可见目标生成像素级的分割掩码。它新增了一个分支，借助全卷积网络（FCN），在完成目标检测与分类的同时生成掩码。以下是图2中Mask R-CNN模型的详细说明：

骨干网络：从输入图像中提取深层特征图（采用ResNet、特征金字塔网络FPN）。
区域提议网络（RPN）：为潜在缺陷生成候选边界框。
边界框优化：通过全连接层（FC）优化候选框，并预测类别标签与边界框坐标。
分割掩码生成：利用卷积层生成像素级掩码，实现缺陷的精准定位。

Mask R-CNN架构说明：Mask R-CNN是基于Faster R-CNN改进的深度学习模型，新增了目标检测与像素级掩码生成功能。该模型可为结构健康监测、缺陷检测、工业质检及结构维护提供高效、灵活且可靠的技术方案。

非极大值抑制（NMS）

如图3所示，非极大值抑制（NMS）是一种在蜂窝缺陷检测中剔除冗余边界框的处理流程，核心是保留置信度最高的框。当检测到同一个目标对应多个边界框时，NMS通过交并比（IoU）计算框之间的重叠程度：若IoU超过设定阈值，则舍弃置信度较低的框。这一后处理过程会持续进行，直到仅保留最优的“黄金标准”边界框。NMS被广泛应用于各类计算机视觉任务，约翰·C·M·S·R与迈克尔·J·布莱克在高效蜂窝缺陷检测的研究中也采用了该技术，其流程可参见图3。

生成候选框：用3×3窗口遍历图像，检测出多个潜在缺陷区域（记为g₁至g₉）。
筛选边界框：从非关键框中筛选出最优结果，仅保留待验证的候选框。
比对候选框：将中间框（g₅）与相邻框（a、b）通过比较单元（CMP）进行比对，找出最精准的框。
选定最优框：通过逻辑“与”运算，保留置信度最高的框，剔除置信度较低的框。
最终判定：利用多路复用器（MUX）判断选定的框对应的区域是边缘还是缺陷，完成整个流程。

非极大值抑制算法通过筛选置信度最高的检测框，优化边界框预测结果。该算法结合了YOLOv5 的实时检测能力与 Mask R-CNN 的实例分割优势进行设计，使所提系统的误差降至最低，检测精度提升至 98.23%，从而优化了结构检测的整体性能。

PART/4

实验及可视化

在“方法流程图”与“算法设计”章节中，本文将结合相关图示与算法，详细阐述所提模型的技术原理——该模型基于Mask R-CNN、非极大值抑制（NMS）及YOLOv5（单次检测算法），实现蜂窝缺陷的检测与定位。

方法流程图

图4展示了基于YOLOv5与Mask R-CNN的缺陷检测结构化流程图，流程步骤如下：

1.图像预处理：通过图像预处理、归一化及增强操作，提升缺陷区域的可见度；

2.YOLOv5检测：利用YOLOv5在疑似缺陷区域生成边界框，完成初步缺陷检测；

3.Mask R-CNN筛选：通过Mask R-CNN对检测结果进行筛选，实现像素级分类与精准的缺陷分割；

4.后处理优化：对分割结果进行后处理，通过过滤与优化操作降低误检率、提升检测精度；

5.结果可视化：将优化后的结果以可视化及统计形式呈现，增强结果的可解释性；

6.实际应用验证：对系统进行分析与验证，确保其适用于真实场景。

该流程在执行前进一步验证了模型性能，最终流程在“STOP”节点结束，标志着缺陷检测工作流的完成。此方法融合了蜂窝缺陷的检测与分割功能，确保了缺陷识别的高精度。

算法设计

本文提出的基于YOLOv5与Mask R-CNN的蜂窝缺陷检测与分割算法，旨在高效地从混凝土柱图像中检测并分割蜂窝缺陷。该方法结合目标检测与实例分割技术，实现缺陷的精准识别与标注。

数据预处理

算法首先导入包含混凝土柱图像的数据集D（图像均标注了蜂窝缺陷）；将图像统一调整为640×640像素的分辨率，以保证数据一致性并提升模型效率；随后对像素值进行归一化处理，将其映射至[0,1]区间，使数据更适配模型输入；最后将数据集划分为训练集、验证集与测试集三个子集，确保模型评估的无偏性与泛化能力。

模型训练

算法采用YOLOv5（目标检测）与Mask R-CNN（实例分割）两种前沿模型：先使用蜂窝缺陷数据集预训练YOLOv5模型，训练时采用16的批处理大小与0个训练轮次；同时对模型进行实例分割数据训练，以实现蜂窝缺陷的有效分割。训练过程中，YOLOv5通过在疑似区域生成边界框完成缺陷检测，Mask R-CNN则对检测到的每个缺陷生成精准的分割掩码。模型性能通过平均精度均值（mAP）、交并比（IoU）等标准指标评估，确保模型具备极高的相似度匹配能力。

推理与后处理

模型训练完成后，在测试图像上进行推理：YOLOv5识别蜂窝缺陷并输出带置信度的边界框，通过非极大值抑制（NMS）剔除冗余框，仅保留有效检测结果；Mask R-CNN输出检测缺陷的分割掩码。后处理阶段，算法过滤出置信度高于0.5的检测结果，将分割掩码叠加至原始图像，并高亮显示检测到的蜂窝缺陷边界框，同时展示边界框对应的置信度值以辅助可视化分析。

结果呈现与部署

最终，带有检测结果与分割掩码的图像可实时展示供分析，或存储备用。该模型支持蜂窝缺陷的实时/批量检测，可部署于边缘设备或集成至云服务，实现高效灵活的应用。具体算法步骤可参考表2的分步说明

模型算法的创新点

YOLOv5与Mask R-CNN的融合：将YOLOv5的目标检测能力与Mask R-CNN的实例分割能力相结合，为蜂窝缺陷的检测与分割提供了稳健框架。
支持批量与实时处理：模型可同时支持蜂窝缺陷的批量与实时检测，具备适配不同部署环境的可扩展性。
非极大值抑制（NMS）的应用：通过NMS剔除检测结果中的冗余边界框，提升蜂窝缺陷的检测精度。
边缘设备与云服务的集成部署：算法具备高可扩展性，可部署于边缘设备或云服务，便于落地实际应用。

标准指标下的高精度表现：通过平均精度均值（mAP）、交并比（IoU）等指标评估，模型在缺陷检测与分割任务中均实现了高精度。

图5展示了模型检测与定位的代表性图像：

检测前：原始混凝土柱存在损伤，但未经过处理；

检测后：系统通过YOLOv5与Mask R-CNN模型完成缺陷的检测与标注。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

YOLO-TLA：一种基于 YOLOv5 的高效轻量级小目标检测模型
ViT-YOLO：基于Transformer的用于目标检测的YOLO算法
SSMA-YOLO：一种轻量级的 YOLO 模型，具备增强的特征提取与融合能力，适用于无人机航拍的船舶图像检测
LUD-YOLO：一种用于无人机的新型轻量级目标检测网络
Gold-YOLO：基于聚合与分配机制的高效目标检测器
Drone-YOLO：一种有效的无人机图像目标检测
「无人机+AI」“空中城管”
无人机+AI：光伏巡检自动化解决方案
无人机视角下多类别船舶检测及数量统计
机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题
2PCNet：昼夜无监督域自适应目标检测（附原代码）
YOLO-S：小目标检测的轻量级、精确的类YOLO网络
大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）
改进的检测算法：用于高分辨率光学遥感图像目标检测

基于混合深度学习模型的混凝土柱蜂窝缺陷实时检测与定位

Vivado注册2035在Artix-7项目中的完整解决方案

版权声明要注意：使用科哥版需保留版权信息

Qwen3-0.6B电商客服实战：3天上线AI问答系统完整指南

科哥开发的修复系统，让图像处理变得如此简单

语音情绪变化趋势分析：基于SenseVoiceSmall的时间序列处理

通义千问3-14B响应慢？双模式切换优化部署实战案例