点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12214667/pdf/41598_2025_Article_6971.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文提出一种基于深度学习的混合模型,结合YOLOv5与Mask R-CNN两种算法,实现混凝土结构蜂窝缺陷的检测与实例分割。
PART/1
概述
该方法兼具YOLOv5的快速目标检测优势与Mask R-CNN的高精度实例分割能力,可对结构图像中的缺陷区域进行高效识别与定位。研究采用包含1991张标注图像的硅基数据集开展模型训练与性能验证,并在系统中集成优化后的预处理、归一化及非极大值抑制(NMS)算法,以保障模型的稳定性与最优性能。实验结果表明,该模型的训练准确率达98.26%,验证准确率达97.80%;在各项性能指标上均表现优异,其中骰子相似系数(DSC)为0.9210、马修斯相关系数(MCC)为0.9620、平均精度均值(mAP)为0.9752、F1分数为0.9835、精确率为0.9843、召回率为0.9812、精确率-召回率曲线下面积(PR-AUC)为0.9752、交并比(IoU)为0.9515、校准曲线误差为0.1800。该方法具备检测精度高、泛化能力强、分割效果稳定的特点,适用于建筑工程现场结构缺陷检测及土木基础设施健康监测。
PART/2
背景
蜂窝缺陷是混凝土建筑中因振捣不密实、振捣作业不到位或配合比设计不合理引发的隐蔽性病害。这类呈蜂窝状分布的孔洞不仅会降低混凝土结构的稳定性、造成原材料浪费,还会增加混凝土的渗透概率,大幅提升钢筋因锈蚀而开裂的风险。因此,精准识别与诊断蜂窝缺陷,对于土木工程师、建筑行业从业者及基础设施运维团队而言至关重要。以图像处理与计算机视觉技术为代表的前沿手段,为构建自动化的蜂窝缺陷检测与分类系统提供了可能。传统蜂窝缺陷检测依赖人工目视检查,存在耗时久、主观性强、易产生人为误差等弊端,因此,研发一套高效、精准、自动化的检测方案,实现蜂窝缺陷的准确定位与识别,具有重要的现实意义。近年来,基于计算机视觉与深度学习的创新方法,能够对混凝土结构图像进行实时分析,助力现场人员快速完成评估与决策。除此之外,学术界还提出了机器学习、深度学习模型及图像处理算法等多种技术路径,用于混凝土结构蜂窝缺陷检测。其中,传统检测方法包括边缘检测、轮廓分析与形态学运算,而新一代检测方案则转向卷积神经网络(CNN),并通过优化CNN网络架构进一步提升检测精度。
然而,现有检测方法普遍存在计算成本高昂的问题,且模型性能高度依赖大规模标注数据集,同时对光照变化与复杂环境条件较为敏感。此外,如何在图像中精准定位蜂窝缺陷的位置,仍是当前技术体系亟待突破的核心难点。基于此,对现有检测方法进行革新升级,推动缺陷评估流程的自动化,已成为行业发展的必然趋势。
在环境影响因素愈发复杂多变的背景下,本研究提出的机器学习算法采用混合技术路线,将深度学习与优化后的传统方法相融合,以此提升检测系统的整体效率与抗干扰能力。通过构建低依赖大规模标注数据集的深度神经网络(DNN),本研究将面向特定领域的特征工程融入通用化模型训练流程,有效缓解了多样化数据采集的瓶颈问题。同时,所提技术方案能够解决缺陷精准定位的难题,这也是传统检测模型难以实现的功能。
众多研究已证实深度学习在图像结构特征检测任务中的显著优势,例如韩等人的研究成果,为本文所提方法的可行性提供了有力支撑。
PART/3
新算法框架解析
本文选用由YOLOv5与Mask R-CNN构成的混合模型,因其兼具快速检测能力与高精度分割性能,表现优于现有多数方案。其中,YOLOv5是极具潜力的实时目标检测模型,能够以高置信度定位蜂窝缺陷;而Mask R-CNN则在目标分类、基于像素级掩码的实例分割任务中表现突出,可精准勾勒缺陷边界。综上,混合模型可同时满足检测速度与精度的需求,这两项性能指标对于土木工程领域高效的结构健康监测至关重要。此外,在“非极大值抑制(NMS)”相关章节中会介绍,NMS是一种后处理技术,用于剔除冗余检测框。以上均为所提方法采用的基础理论。
YOLOv5(单次检测算法)
YOLOv5是当前最先进的深度学习实时目标检测与识别模型,基于PyTorch框架开发,支持单次正向传播检测。具体而言,图像数据仅需经过神经网络一次正向运算,即可完成检测任务。凭借这一优势,该模型能够在保证检测精度的同时实现高速运算,因此除安防监控领域外,还广泛适用于自动驾驶系统与工业检测场景。
如图1所示,YOLOv5模型的架构由三个核心部分组成:
1.骨干网络:YOLOv5采用CSPDarknet53作为骨干网络,这是一种经过优化的Darknet架构。该网络可高效提取实时目标检测所需的特征,同时简化计算复杂度。
2.颈部网络:引入路径聚合网络(PANet),以此强化特征融合效果,提升多尺度目标的检测性能。
3.密集预测:YOLOv5的密集预测机制,是指对图像中每个像素的目标属性进行预测,这一设计能更高效地检测不同尺寸、不同位置的目标。
在建筑结构健康监测系统中,YOLOv5可有效识别并定位混凝土结构中的蜂窝缺陷。此类缺陷由振捣不密实所致,会使混凝土内部形成空隙及连通性孔洞。YOLOv5具备以下优势:
1.实时检测:可助力工作人员及时处理或消除蜂窝缺陷。
2.自动化检测:自动化流程可降低人工检测的不确定性,提升整体检测效率。
3.高精度检测:能够清晰识别各类缺陷,为结构安全评估提供可靠依据。
4.高性价比:在实现大面积监测的同时,大幅降低检测成本。
工程师可将结构健康监测系统与YOLOv5 算法相集成,避免损伤反复出现,进而保障混凝土结构的施工安全与长期耐久性。
掩码区域卷积神经网络(Mask R-CNN)
如图2所示,Mask R-CNN是更快的区域卷积神经网络(Faster R-CNN)的改进版本,专门用于目标分类任务。该模型不仅能检测并分类目标,还可针对所有可见目标生成像素级的分割掩码。它新增了一个分支,借助全卷积网络(FCN),在完成目标检测与分类的同时生成掩码。以下是图2中Mask R-CNN模型的详细说明:
骨干网络:从输入图像中提取深层特征图(采用ResNet、特征金字塔网络FPN)。
区域提议网络(RPN):为潜在缺陷生成候选边界框。
边界框优化:通过全连接层(FC)优化候选框,并预测类别标签与边界框坐标。
分割掩码生成:利用卷积层生成像素级掩码,实现缺陷的精准定位。
Mask R-CNN架构说明:Mask R-CNN是基于Faster R-CNN改进的深度学习模型,新增了目标检测与像素级掩码生成功能。该模型可为结构健康监测、缺陷检测、工业质检及结构维护提供高效、灵活且可靠的技术方案。
非极大值抑制(NMS)
如图3所示,非极大值抑制(NMS)是一种在蜂窝缺陷检测中剔除冗余边界框的处理流程,核心是保留置信度最高的框。当检测到同一个目标对应多个边界框时,NMS通过交并比(IoU)计算框之间的重叠程度:若IoU超过设定阈值,则舍弃置信度较低的框。这一后处理过程会持续进行,直到仅保留最优的“黄金标准”边界框。NMS被广泛应用于各类计算机视觉任务,约翰·C·M·S·R与迈克尔·J·布莱克在高效蜂窝缺陷检测的研究中也采用了该技术,其流程可参见图3。
生成候选框:用3×3窗口遍历图像,检测出多个潜在缺陷区域(记为g₁至g₉)。
筛选边界框:从非关键框中筛选出最优结果,仅保留待验证的候选框。
比对候选框:将中间框(g₅)与相邻框(a、b)通过比较单元(CMP)进行比对,找出最精准的框。
选定最优框:通过逻辑“与”运算,保留置信度最高的框,剔除置信度较低的框。
最终判定:利用多路复用器(MUX)判断选定的框对应的区域是边缘还是缺陷,完成整个流程。
非极大值抑制算法通过筛选置信度最高的检测框,优化边界框预测结果。该算法结合了YOLOv5 的实时检测能力与 Mask R-CNN 的实例分割优势进行设计,使所提系统的误差降至最低,检测精度提升至 98.23%,从而优化了结构检测的整体性能。
PART/4
实验及可视化
在“方法流程图”与“算法设计”章节中,本文将结合相关图示与算法,详细阐述所提模型的技术原理——该模型基于Mask R-CNN、非极大值抑制(NMS)及YOLOv5(单次检测算法),实现蜂窝缺陷的检测与定位。
方法流程图
图4展示了基于YOLOv5与Mask R-CNN的缺陷检测结构化流程图,流程步骤如下:
1.图像预处理:通过图像预处理、归一化及增强操作,提升缺陷区域的可见度;
2.YOLOv5检测:利用YOLOv5在疑似缺陷区域生成边界框,完成初步缺陷检测;
3.Mask R-CNN筛选:通过Mask R-CNN对检测结果进行筛选,实现像素级分类与精准的缺陷分割;
4.后处理优化:对分割结果进行后处理,通过过滤与优化操作降低误检率、提升检测精度;
5.结果可视化:将优化后的结果以可视化及统计形式呈现,增强结果的可解释性;
6.实际应用验证:对系统进行分析与验证,确保其适用于真实场景。
该流程在执行前进一步验证了模型性能,最终流程在“STOP”节点结束,标志着缺陷检测工作流的完成。此方法融合了蜂窝缺陷的检测与分割功能,确保了缺陷识别的高精度。
算法设计
本文提出的基于YOLOv5与Mask R-CNN的蜂窝缺陷检测与分割算法,旨在高效地从混凝土柱图像中检测并分割蜂窝缺陷。该方法结合目标检测与实例分割技术,实现缺陷的精准识别与标注。
数据预处理
算法首先导入包含混凝土柱图像的数据集D(图像均标注了蜂窝缺陷);将图像统一调整为640×640像素的分辨率,以保证数据一致性并提升模型效率;随后对像素值进行归一化处理,将其映射至[0,1]区间,使数据更适配模型输入;最后将数据集划分为训练集、验证集与测试集三个子集,确保模型评估的无偏性与泛化能力。
模型训练
算法采用YOLOv5(目标检测)与Mask R-CNN(实例分割)两种前沿模型:先使用蜂窝缺陷数据集预训练YOLOv5模型,训练时采用16的批处理大小与0个训练轮次;同时对模型进行实例分割数据训练,以实现蜂窝缺陷的有效分割。训练过程中,YOLOv5通过在疑似区域生成边界框完成缺陷检测,Mask R-CNN则对检测到的每个缺陷生成精准的分割掩码。模型性能通过平均精度均值(mAP)、交并比(IoU)等标准指标评估,确保模型具备极高的相似度匹配能力。
推理与后处理
模型训练完成后,在测试图像上进行推理:YOLOv5识别蜂窝缺陷并输出带置信度的边界框,通过非极大值抑制(NMS)剔除冗余框,仅保留有效检测结果;Mask R-CNN输出检测缺陷的分割掩码。后处理阶段,算法过滤出置信度高于0.5的检测结果,将分割掩码叠加至原始图像,并高亮显示检测到的蜂窝缺陷边界框,同时展示边界框对应的置信度值以辅助可视化分析。
结果呈现与部署
最终,带有检测结果与分割掩码的图像可实时展示供分析,或存储备用。该模型支持蜂窝缺陷的实时/批量检测,可部署于边缘设备或集成至云服务,实现高效灵活的应用。具体算法步骤可参考表2的分步说明
模型算法的创新点
YOLOv5与Mask R-CNN的融合:将YOLOv5的目标检测能力与Mask R-CNN的实例分割能力相结合,为蜂窝缺陷的检测与分割提供了稳健框架。
支持批量与实时处理:模型可同时支持蜂窝缺陷的批量与实时检测,具备适配不同部署环境的可扩展性。
非极大值抑制(NMS)的应用:通过NMS剔除检测结果中的冗余边界框,提升蜂窝缺陷的检测精度。
边缘设备与云服务的集成部署:算法具备高可扩展性,可部署于边缘设备或云服务,便于落地实际应用。
标准指标下的高精度表现:通过平均精度均值(mAP)、交并比(IoU)等指标评估,模型在缺陷检测与分割任务中均实现了高精度。
图5展示了模型检测与定位的代表性图像:
检测前:原始混凝土柱存在损伤,但未经过处理;
检测后:系统通过YOLOv5与Mask R-CNN模型完成缺陷的检测与标注。
有相关需求的你可以联系我们!
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗
YOLO-TLA:一种基于 YOLOv5 的高效轻量级小目标检测模型
ViT-YOLO:基于Transformer的用于目标检测的YOLO算法
SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测
LUD-YOLO:一种用于无人机的新型轻量级目标检测网络
Gold-YOLO:基于聚合与分配机制的高效目标检测器
Drone-YOLO:一种有效的无人机图像目标检测
「无人机+AI」“空中城管”
无人机+AI:光伏巡检自动化解决方案
无人机视角下多类别船舶检测及数量统计
机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题
2PCNet:昼夜无监督域自适应目标检测(附原代码)
YOLO-S:小目标检测的轻量级、精确的类YOLO网络
大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载)
改进的检测算法:用于高分辨率光学遥感图像目标检测