news 2026/4/23 13:48:38

基于混合深度学习模型的混凝土柱蜂窝缺陷实时检测与定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于混合深度学习模型的混凝土柱蜂窝缺陷实时检测与定位

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12214667/pdf/41598_2025_Article_6971.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出一种基于深度学习的混合模型,结合YOLOv5与Mask R-CNN两种算法,实现混凝土结构蜂窝缺陷的检测与实例分割。

PART/1

概述

该方法兼具YOLOv5的快速目标检测优势与Mask R-CNN的高精度实例分割能力,可对结构图像中的缺陷区域进行高效识别与定位。研究采用包含1991张标注图像的硅基数据集开展模型训练与性能验证,并在系统中集成优化后的预处理、归一化及非极大值抑制(NMS)算法,以保障模型的稳定性与最优性能。实验结果表明,该模型的训练准确率达98.26%,验证准确率达97.80%;在各项性能指标上均表现优异,其中骰子相似系数(DSC)为0.9210、马修斯相关系数(MCC)为0.9620、平均精度均值(mAP)为0.9752、F1分数为0.9835、精确率为0.9843、召回率为0.9812、精确率-召回率曲线下面积(PR-AUC)为0.9752、交并比(IoU)为0.9515、校准曲线误差为0.1800。该方法具备检测精度高、泛化能力强、分割效果稳定的特点,适用于建筑工程现场结构缺陷检测及土木基础设施健康监测。

PART/2

背景

蜂窝缺陷是混凝土建筑中因振捣不密实、振捣作业不到位或配合比设计不合理引发的隐蔽性病害。这类呈蜂窝状分布的孔洞不仅会降低混凝土结构的稳定性、造成原材料浪费,还会增加混凝土的渗透概率,大幅提升钢筋因锈蚀而开裂的风险。因此,精准识别与诊断蜂窝缺陷,对于土木工程师、建筑行业从业者及基础设施运维团队而言至关重要。以图像处理与计算机视觉技术为代表的前沿手段,为构建自动化的蜂窝缺陷检测与分类系统提供了可能。传统蜂窝缺陷检测依赖人工目视检查,存在耗时久、主观性强、易产生人为误差等弊端,因此,研发一套高效、精准、自动化的检测方案,实现蜂窝缺陷的准确定位与识别,具有重要的现实意义。近年来,基于计算机视觉与深度学习的创新方法,能够对混凝土结构图像进行实时分析,助力现场人员快速完成评估与决策。除此之外,学术界还提出了机器学习、深度学习模型及图像处理算法等多种技术路径,用于混凝土结构蜂窝缺陷检测。其中,传统检测方法包括边缘检测、轮廓分析与形态学运算,而新一代检测方案则转向卷积神经网络(CNN),并通过优化CNN网络架构进一步提升检测精度。

然而,现有检测方法普遍存在计算成本高昂的问题,且模型性能高度依赖大规模标注数据集,同时对光照变化与复杂环境条件较为敏感。此外,如何在图像中精准定位蜂窝缺陷的位置,仍是当前技术体系亟待突破的核心难点。基于此,对现有检测方法进行革新升级,推动缺陷评估流程的自动化,已成为行业发展的必然趋势。

在环境影响因素愈发复杂多变的背景下,本研究提出的机器学习算法采用混合技术路线,将深度学习与优化后的传统方法相融合,以此提升检测系统的整体效率与抗干扰能力。通过构建低依赖大规模标注数据集的深度神经网络(DNN),本研究将面向特定领域的特征工程融入通用化模型训练流程,有效缓解了多样化数据采集的瓶颈问题。同时,所提技术方案能够解决缺陷精准定位的难题,这也是传统检测模型难以实现的功能。

众多研究已证实深度学习在图像结构特征检测任务中的显著优势,例如韩等人的研究成果,为本文所提方法的可行性提供了有力支撑。

PART/3

新算法框架解析

本文选用由YOLOv5与Mask R-CNN构成的混合模型,因其兼具快速检测能力与高精度分割性能,表现优于现有多数方案。其中,YOLOv5是极具潜力的实时目标检测模型,能够以高置信度定位蜂窝缺陷;而Mask R-CNN则在目标分类、基于像素级掩码的实例分割任务中表现突出,可精准勾勒缺陷边界。综上,混合模型可同时满足检测速度与精度的需求,这两项性能指标对于土木工程领域高效的结构健康监测至关重要。此外,在“非极大值抑制(NMS)”相关章节中会介绍,NMS是一种后处理技术,用于剔除冗余检测框。以上均为所提方法采用的基础理论。

YOLOv5(单次检测算法)

YOLOv5是当前最先进的深度学习实时目标检测与识别模型,基于PyTorch框架开发,支持单次正向传播检测。具体而言,图像数据仅需经过神经网络一次正向运算,即可完成检测任务。凭借这一优势,该模型能够在保证检测精度的同时实现高速运算,因此除安防监控领域外,还广泛适用于自动驾驶系统与工业检测场景。

如图1所示,YOLOv5模型的架构由三个核心部分组成:

1.骨干网络:YOLOv5采用CSPDarknet53作为骨干网络,这是一种经过优化的Darknet架构。该网络可高效提取实时目标检测所需的特征,同时简化计算复杂度。

2.颈部网络:引入路径聚合网络(PANet),以此强化特征融合效果,提升多尺度目标的检测性能。

3.密集预测:YOLOv5的密集预测机制,是指对图像中每个像素的目标属性进行预测,这一设计能更高效地检测不同尺寸、不同位置的目标。

在建筑结构健康监测系统中,YOLOv5可有效识别并定位混凝土结构中的蜂窝缺陷。此类缺陷由振捣不密实所致,会使混凝土内部形成空隙及连通性孔洞。YOLOv5具备以下优势:

1.实时检测:可助力工作人员及时处理或消除蜂窝缺陷。

2.自动化检测:自动化流程可降低人工检测的不确定性,提升整体检测效率。

3.高精度检测:能够清晰识别各类缺陷,为结构安全评估提供可靠依据。

4.高性价比:在实现大面积监测的同时,大幅降低检测成本。

工程师可将结构健康监测系统与YOLOv5 算法相集成,避免损伤反复出现,进而保障混凝土结构的施工安全与长期耐久性。

掩码区域卷积神经网络(Mask R-CNN)

如图2所示,Mask R-CNN是更快的区域卷积神经网络(Faster R-CNN)的改进版本,专门用于目标分类任务。该模型不仅能检测并分类目标,还可针对所有可见目标生成像素级的分割掩码。它新增了一个分支,借助全卷积网络(FCN),在完成目标检测与分类的同时生成掩码。以下是图2中Mask R-CNN模型的详细说明:

  • 骨干网络:从输入图像中提取深层特征图(采用ResNet、特征金字塔网络FPN)。

  • 区域提议网络(RPN):为潜在缺陷生成候选边界框。

  • 边界框优化:通过全连接层(FC)优化候选框,并预测类别标签与边界框坐标。

  • 分割掩码生成:利用卷积层生成像素级掩码,实现缺陷的精准定位。

Mask R-CNN架构说明:Mask R-CNN是基于Faster R-CNN改进的深度学习模型,新增了目标检测与像素级掩码生成功能。该模型可为结构健康监测、缺陷检测、工业质检及结构维护提供高效、灵活且可靠的技术方案。

非极大值抑制(NMS)

如图3所示,非极大值抑制(NMS)是一种在蜂窝缺陷检测中剔除冗余边界框的处理流程,核心是保留置信度最高的框。当检测到同一个目标对应多个边界框时,NMS通过交并比(IoU)计算框之间的重叠程度:若IoU超过设定阈值,则舍弃置信度较低的框。这一后处理过程会持续进行,直到仅保留最优的“黄金标准”边界框。NMS被广泛应用于各类计算机视觉任务,约翰·C·M·S·R与迈克尔·J·布莱克在高效蜂窝缺陷检测的研究中也采用了该技术,其流程可参见图3。

  • 生成候选框:用3×3窗口遍历图像,检测出多个潜在缺陷区域(记为g₁至g₉)。

  • 筛选边界框:从非关键框中筛选出最优结果,仅保留待验证的候选框。

  • 比对候选框:将中间框(g₅)与相邻框(a、b)通过比较单元(CMP)进行比对,找出最精准的框。

  • 选定最优框:通过逻辑“与”运算,保留置信度最高的框,剔除置信度较低的框。

  • 最终判定:利用多路复用器(MUX)判断选定的框对应的区域是边缘还是缺陷,完成整个流程。

非极大值抑制算法通过筛选置信度最高的检测框,优化边界框预测结果。该算法结合了YOLOv5 的实时检测能力与 Mask R-CNN 的实例分割优势进行设计,使所提系统的误差降至最低,检测精度提升至 98.23%,从而优化了结构检测的整体性能。

PART/4

实验及可视化

在“方法流程图”与“算法设计”章节中,本文将结合相关图示与算法,详细阐述所提模型的技术原理——该模型基于Mask R-CNN、非极大值抑制(NMS)及YOLOv5(单次检测算法),实现蜂窝缺陷的检测与定位。

方法流程图

图4展示了基于YOLOv5与Mask R-CNN的缺陷检测结构化流程图,流程步骤如下:

1.图像预处理:通过图像预处理、归一化及增强操作,提升缺陷区域的可见度;

2.YOLOv5检测:利用YOLOv5在疑似缺陷区域生成边界框,完成初步缺陷检测;

3.Mask R-CNN筛选:通过Mask R-CNN对检测结果进行筛选,实现像素级分类与精准的缺陷分割;

4.后处理优化:对分割结果进行后处理,通过过滤与优化操作降低误检率、提升检测精度;

5.结果可视化:将优化后的结果以可视化及统计形式呈现,增强结果的可解释性;

6.实际应用验证:对系统进行分析与验证,确保其适用于真实场景。

该流程在执行前进一步验证了模型性能,最终流程在“STOP”节点结束,标志着缺陷检测工作流的完成。此方法融合了蜂窝缺陷的检测与分割功能,确保了缺陷识别的高精度。

算法设计

本文提出的基于YOLOv5与Mask R-CNN的蜂窝缺陷检测与分割算法,旨在高效地从混凝土柱图像中检测并分割蜂窝缺陷。该方法结合目标检测与实例分割技术,实现缺陷的精准识别与标注。

数据预处理

算法首先导入包含混凝土柱图像的数据集D(图像均标注了蜂窝缺陷);将图像统一调整为640×640像素的分辨率,以保证数据一致性并提升模型效率;随后对像素值进行归一化处理,将其映射至[0,1]区间,使数据更适配模型输入;最后将数据集划分为训练集、验证集与测试集三个子集,确保模型评估的无偏性与泛化能力。

模型训练

算法采用YOLOv5(目标检测)与Mask R-CNN(实例分割)两种前沿模型:先使用蜂窝缺陷数据集预训练YOLOv5模型,训练时采用16的批处理大小与0个训练轮次;同时对模型进行实例分割数据训练,以实现蜂窝缺陷的有效分割。训练过程中,YOLOv5通过在疑似区域生成边界框完成缺陷检测,Mask R-CNN则对检测到的每个缺陷生成精准的分割掩码。模型性能通过平均精度均值(mAP)、交并比(IoU)等标准指标评估,确保模型具备极高的相似度匹配能力。

推理与后处理

模型训练完成后,在测试图像上进行推理:YOLOv5识别蜂窝缺陷并输出带置信度的边界框,通过非极大值抑制(NMS)剔除冗余框,仅保留有效检测结果;Mask R-CNN输出检测缺陷的分割掩码。后处理阶段,算法过滤出置信度高于0.5的检测结果,将分割掩码叠加至原始图像,并高亮显示检测到的蜂窝缺陷边界框,同时展示边界框对应的置信度值以辅助可视化分析。

结果呈现与部署

最终,带有检测结果与分割掩码的图像可实时展示供分析,或存储备用。该模型支持蜂窝缺陷的实时/批量检测,可部署于边缘设备或集成至云服务,实现高效灵活的应用。具体算法步骤可参考表2的分步说明

模型算法的创新点

  • YOLOv5与Mask R-CNN的融合:将YOLOv5的目标检测能力与Mask R-CNN的实例分割能力相结合,为蜂窝缺陷的检测与分割提供了稳健框架。

  • 支持批量与实时处理:模型可同时支持蜂窝缺陷的批量与实时检测,具备适配不同部署环境的可扩展性。

  • 非极大值抑制(NMS)的应用:通过NMS剔除检测结果中的冗余边界框,提升蜂窝缺陷的检测精度。

  • 边缘设备与云服务的集成部署:算法具备高可扩展性,可部署于边缘设备或云服务,便于落地实际应用。

标准指标下的高精度表现:通过平均精度均值(mAP)、交并比(IoU)等指标评估,模型在缺陷检测与分割任务中均实现了高精度。

图5展示了模型检测与定位的代表性图像:

  • 检测前:原始混凝土柱存在损伤,但未经过处理;

检测后:系统通过YOLOv5与Mask R-CNN模型完成缺陷的检测与标注。

有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐

🔗

  • YOLO-TLA:一种基于 YOLOv5 的高效轻量级小目标检测模型

  • ViT-YOLO:基于Transformer的用于目标检测的YOLO算法

  • SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测

  • LUD-YOLO:一种用于无人机的新型轻量级目标检测网络

  • Gold-YOLO:基于聚合与分配机制的高效目标检测器

  • Drone-YOLO:一种有效的无人机图像目标检测

  • 「无人机+AI」“空中城管”

  • 无人机+AI:光伏巡检自动化解决方案

  • 无人机视角下多类别船舶检测及数量统计

  • 机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

  • 2PCNet:昼夜无监督域自适应目标检测(附原代码)

  • YOLO-S:小目标检测的轻量级、精确的类YOLO网络

  • 大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载)

  • 改进的检测算法:用于高分辨率光学遥感图像目标检测

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:26:48

Vivado注册2035在Artix-7项目中的完整解决方案

以下是对您提供的博文内容进行 深度润色与重构后的技术文章 。整体风格更贴近一位资深FPGA工程师/教学博主的自然表达,去除了AI腔、模板化结构和生硬术语堆砌,强化了逻辑流、实操细节与行业语境,同时严格遵循您提出的全部优化要求(无标题套路、无总结段、无参考文献、语言…

作者头像 李华
网站建设 2026/4/23 12:15:30

版权声明要注意:使用科哥版需保留版权信息

版权声明要注意:使用科哥版需保留版权信息 在AI语音合成领域,开源模型的二次开发正成为开发者快速落地应用的重要路径。阿里通义实验室开源的CosyVoice2-0.5B模型,凭借零样本克隆、跨语种合成和自然语言控制等能力,已成为语音生成…

作者头像 李华
网站建设 2026/4/23 12:18:10

Qwen3-0.6B电商客服实战:3天上线AI问答系统完整指南

Qwen3-0.6B电商客服实战:3天上线AI问答系统完整指南 你是不是也遇到过这些问题: 客服团队每天重复回答“发货多久?”“能改地址吗?”“怎么退换货?”上百遍;大促期间咨询量暴增,人工响应延迟&…

作者头像 李华
网站建设 2026/4/23 12:12:24

科哥开发的修复系统,让图像处理变得如此简单

科哥开发的修复系统,让图像处理变得如此简单 在日常工作中,你是否遇到过这样的困扰:一张精心拍摄的照片上突然闯入路人、水印遮挡关键信息、旧照片出现划痕、设计稿里需要移除某个元素却苦于没有专业修图技能?过去,这…

作者头像 李华
网站建设 2026/4/23 12:36:14

语音情绪变化趋势分析:基于SenseVoiceSmall的时间序列处理

语音情绪变化趋势分析:基于SenseVoiceSmall的时间序列处理 1. 为什么语音里的“语气”比文字更重要? 你有没有过这样的经历:同事发来一句“好的”,但你立刻觉得不对劲——明明字面是配合,语气里却全是不耐烦&#xf…

作者头像 李华
网站建设 2026/4/23 12:56:43

通义千问3-14B响应慢?双模式切换优化部署实战案例

通义千问3-14B响应慢?双模式切换优化部署实战案例 1. 为什么你感觉Qwen3-14B“慢”——先破除一个常见误解 很多人第一次跑通义千问3-14B时,会下意识觉得“响应不够快”,尤其对比Qwen2-7B或Llama3-8B这类轻量模型。但真相是:它不…

作者头像 李华