自监督学习在计算机视觉中的工程落地：任务适配、领域迁移与实操避坑-深圳市維司達科技有限公司

1. 项目概述：自监督模型不是“万能膏药”，而是视觉任务的“通用预训练引擎”

“How Can Self-Supervised Models Benefit Different Computer Vision Tasks?”——这个标题乍看像一篇综述论文的提问，但在我过去十年带团队落地几十个CV项目的过程中，它其实是一句实打实的工程叩问：当标注数据贵如黄金、小样本场景遍地开花、下游任务五花八门时，我们到底该怎么用好自监督学习？它真能替代ImageNet预训练？在工业质检里省多少标注成本？在医疗影像中提升多少分割Dice系数？在移动端部署会不会拖慢推理？这些都不是理论问题，而是每天要拍板的技术选型。核心关键词——自监督学习、计算机视觉、预训练、下游任务适配、数据效率——已经点明了这场技术迁移的本质：从“依赖人工标注”的旧范式，转向“让模型自己理解图像结构”的新基建。这篇文章不讲公式推导，不堆论文引用，只讲我在产线、医疗、安防、零售四个真实领域踩过的坑、算过的账、调出来的参数。适合三类人：算法工程师想评估是否该在下一个项目中引入自监督；算法负责人需要向业务方解释“为什么多花两周做预训练反而能缩短整体交付周期”；以及刚入门的CV同学，想跳过“对比学习=SimCLR+ResNet50”这种教科书幻觉，直接看到模型在缺陷检测、细胞分割、车牌识别、货架盘点中到底干了什么、怎么干的、干得怎么样。

我试过把MoCo v2直接扔进一个只有300张标注图的PCB板缺陷检测项目，结果mAP没涨反跌2.3%——不是模型不行，是忘了下游任务是密集小目标，而MoCo学的是全局语义。我也在肺部CT血管分割任务中，用DINO微调ViT-Base，把Dice从0.78拉到0.85，关键不是用了Transformer，而是DINO的注意力热图天然聚焦于血管走向，比ImageNet预训练的特征更“懂”医学影像的解剖逻辑。这些经验没法从arXiv摘要里读出来，得靠一次又一次地把模型跑在真实数据上、看loss曲线抖动、查特征图激活、测端到端延迟。所以这篇内容的核心，不是告诉你“自监督有多好”，而是帮你建立一套判断框架：什么任务值得上？该选哪种自监督范式？预训练和微调之间如何衔接？哪些指标会涨、哪些会掉、为什么？这才是能写进技术方案、能说服PM、能指导实习生干活的硬核内容。

2. 内容整体设计与思路拆解：为什么不能照搬论文里的“标准流程”？

2.1 任务驱动的范式选择：对比学习、掩码建模、旋转预测，不是并列选项而是分层工具

很多初学者一上来就纠结“该用SimCLR还是MAE”，这就像装修前先争论“该买德国螺丝刀还是日本卷尺”。真正决定成败的，是下游任务本身的物理约束和数据特性。我把CV任务粗略分为四类，并匹配最适配的自监督范式：

密集预测类（分割、检测、关键点）：这类任务要求模型对像素级结构敏感，比如工业质检中的微米级划痕、病理切片中的细胞核边界。此时，掩码建模（Masked Autoencoding, MAE）是首选。原因很实在：MAE强制模型重建被遮盖的局部块，天然逼迫网络学习局部纹理、边缘连续性、空间上下文。我做过对照实验，在同一个钢材表面缺陷分割数据集上，用MAE预训练ViT-Base，其边界IoU比SimCLR高4.7%，因为MAE重建损失直接作用于像素空间，而对比学习的损失函数只关心全局特征向量的余弦距离。> 提示：MAE不是万能的，当你的缺陷尺寸小于遮盖块（如16×16）时，重建任务会失效——这时得把遮盖块调小到8×8，或改用局部对比学习（LocalAgg）。
细粒度分类类（车型识别、病害分级、品种鉴定）：这类任务难点在于同类样本间差异极小（如不同年份的同一款宝马前脸），而类间差异可能不大（如两种相似病害的叶片）。此时，对比学习（Contrastive Learning）的优势凸显。SimCLR、MoCo系列通过构造正负样本对，显式拉近同类样本的特征距离、推开异类，特别擅长捕捉细微判别性特征。我们在一个茶叶品种识别项目中，用MoCo v3预训练EfficientNet-B3，在仅200张/类的标注数据下，top-1准确率比ImageNet预训练高9.2%。关键不是温度系数τ调得多精，而是我们构造正样本时，特意加入了同一批次采摘、不同光照条件下的同一株茶树照片——这比随机裁剪+颜色抖动更能模拟真实场景的细粒度变化。
异常检测与零样本迁移类（未知缺陷发现、新设备适配）：这类任务没有明确的“负样本”定义，传统监督学习束手无策。此时，生成式自监督（如旋转预测、拼图预测）反而更鲁棒。旋转预测（RotNet）让模型判断图像被旋转的角度（0°/90°/180°/270°），本质是学习图像的内在方向性与结构对称性。当一张从未见过的新型裂纹图像输入时，其旋转预测置信度会显著低于正常样本——这就是异常信号。我们在半导体晶圆检测中部署RotNet+One-Class SVM，对未标注的新类型划痕检出率比传统阈值法高31%，且误报率下降42%。> 注意：旋转预测对图像中心裁剪敏感，必须确保裁剪区域包含足够结构信息，否则所有样本都预测为0°，模型就废了。
视频理解类（行为识别、轨迹预测）：单帧图像的自监督无法捕获时序动态。必须升级到时空自监督（Spatio-Temporal SSL），如VideoMAE、TimeSformer。它们不是简单地把视频帧堆成3D张量，而是设计时空掩码策略——比如遮盖连续3帧中的中心帧，或遮盖同一位置在不同时间的像素块。我们在一个工地安全帽佩戴检测项目中，用VideoMAE预训练SlowFast网络，对快速低头、转身等易漏检动作的召回率提升18%，因为模型学会了“头盔-头部-身体”的运动耦合关系，而不是孤立地认头盔。

这四种范式不是非此即彼，而是存在清晰的能力边界。我见过团队强行用MAE做细粒度分类，结果特征过于局部化，全局判别力不足；也见过用SimCLR做异常检测，因正负样本构造不合理，导致所有样本特征都挤在超球面一角。选择依据从来不是“SOTA排行榜第几”，而是“我的数据长什么样、我的任务要输出什么、我的硬件能跑多大模型”。

2.2 预训练-微调范式的根本矛盾：特征迁移 vs. 任务对齐

几乎所有失败案例，根源都在于混淆了“预训练目标”和“下游任务目标”。ImageNet预训练的目标是区分1000类物体，其学到的特征天然偏向于纹理、形状、全局语义；而自监督预训练的目标是重建、对比、预测，其特征分布完全不同。直接拿MAE预训练权重微调分类器，就像用修车扳手拧螺丝——工具不对口。

我们解决这个问题的核心思路是：预训练负责“学世界”，微调负责“学任务”，中间必须加一道“翻译层”。具体有三种实践路径：

路径一：冻结主干+替换头部（Freeze-Head Swap）
适用于下游任务与预训练目标差异极大，且标注数据极少（<1000张）。例如，用MAE预训练ViT-Base做遥感图像道路提取（二值分割）。我们冻结全部ViT层，只训练一个轻量级U-Net解码头。这样做的好处是：ViT学到的局部重建能力被完整保留，解码头专注学习如何把重建特征映射到像素级mask。实测下来，比全网络微调收敛快3倍，最终IoU高1.8%。> 实操心得：冻结层的梯度必须彻底关闭（requires_grad=False），我曾因忘记设置model.eval()导致BN层统计量更新，模型在验证集上剧烈抖动。
路径二：渐进式解冻（Progressive Unfreezing）
适用于中等规模数据（1K–10K张）和中等复杂度任务（如多类别检测）。以YOLOv5s为例，我们先微调最后3个CSP模块，等mAP稳定后再解冻倒数第4–6层，最后才放开全部。这样做的物理意义是：底层卷积学的是边缘、纹理等通用特征，应该早解冻；中层学的是部件组合（如车轮、车窗），需根据下游任务调整；顶层学的是高级语义（如“汽车”），如果下游是“卡车/轿车/巴士”三级分类，则必须重训。我们在一个物流包裹分拣项目中，用此法将收敛epoch从150降到85，且最终mAP比一步解冻高2.1%。
路径三：任务感知的预训练微调（Task-Aware Pretraining Tuning）
这是最激进也最有效的方案，适用于有充足算力和数据的场景。核心是在预训练后期，加入少量下游任务相关的弱监督信号。例如，在MAE预训练的最后10% epoch，我们混入10%的下游分割标签，修改损失函数为：L_total = 0.9 * L_MAE + 0.1 * L_Seg。这里的L_Seg不是完整分割loss，而是只计算被MAE遮盖区域的Dice loss——因为模型此时最不确定的就是这些区域。结果在医疗视网膜血管分割任务中，Dice系数从0.832提升到0.857，且收敛速度加快40%。这证明：预训练和微调的界限可以模糊，关键是要让模型在“学世界”的过程中，就悄悄瞄一眼“你要它干什么”。

这三种路径的选择，本质上是算力、数据、时间三者的权衡。没有银弹，只有trade-off。我建议新手从路径一开始，老手可尝试路径三，但务必记住：任何微调策略，都要以验证集上的任务指标（而非预训练loss）为唯一验收标准。

2.3 领域适配的不可忽视性：为什么医疗影像不能直接套用自然图像预训练？

这是最容易被忽略，却代价最高的误区。很多团队直接下载MAE-Base在ImageNet-1K上预训练好的权重，然后微调医疗CT数据，结果性能平平甚至倒退。原因在于：预训练数据的分布，决定了模型的“世界观”。

自然图像（ImageNet）的特点是：高对比度、丰富色彩、清晰边缘、主体居中、背景杂乱。而医疗影像（如CT、MRI）的特点是：低对比度、灰度为主、噪声显著、解剖结构复杂、伪影常见。当MAE在ImageNet上学会“重建一只猫的毛发纹理”时，它对“重建CT中肺实质的微小磨玻璃影”毫无概念——因为两者的数据分布鸿沟太大。

我们的解决方案是：领域内自监督预训练（Domain-Intrinsic SSL）。具体操作分三步：

数据清洗与增强定制：医疗影像不能用RandomHorizontalFlip（左右翻转会破坏解剖对称性），也不能用ColorJitter（灰度图无颜色）。我们开发了一套专用增强：GaussianNoise（模拟CT量子噪声）、ElasticDeformation（模拟呼吸运动导致的器官形变）、HistogramEqualization（增强低对比度区域）。这些增强不是为了“增加多样性”，而是为了模拟真实采集过程中的物理扰动。
构建领域内无标签数据池：我们不依赖公开数据集，而是从合作医院脱敏获取10万例未标注CT扫描。注意：不是原始DICOM，而是统一重采样到512×512×Z，窗宽窗位标准化（WW/WL=1500/–500），再提取肺部ROI。这个数据池的质量，直接决定预训练效果。
修改预训练目标以匹配领域需求：在MAE中，我们把标准的像素重建loss，替换为结构感知重建loss：L_recon = α * L_pixel + β * L_edge + γ * L_struct。其中L_edge用Canny检测重建图与原图的边缘图差异，L_struct用预训练好的3D U-Net提取重建图与原图的肺实质分割mask的Dice loss。这样，模型不仅学“像不像”，更学“结构对不对”。

在肺结节良恶性分类任务中，这套领域内预训练使AUC从0.821提升至0.879，关键提升来自对结节边缘毛刺征、分叶征等细微征象的识别能力增强。这再次印证：自监督的价值，不在于它多“先进”，而在于它多“贴身”。把通用模型当锤子，所有问题都是钉子；把领域知识注入预训练，模型才真正成为你的延伸。

3. 核心细节解析与实操要点：参数、数据、硬件，一个都不能少

3.1 数据准备：不是“越多越好”，而是“越准越强”

自监督学习对数据量的要求，远低于监督学习，但对数据质量的要求，却更高。我见过太多团队花大力气爬取百万张网络图片，结果预训练效果还不如用1万张精心筛选的工厂现场图。核心原则是：数据代表性 > 数据规模。

代表性定义：你的下游任务数据，长什么样，预训练数据就要尽量像什么样。
- 若下游是手机拍摄的瑕疵图（分辨率低、畸变大、光照不均），预训练数据就不能全是单反拍摄的高清图。我们为此专门搭建了一个“手机影像模拟器”：用OpenCV对高清图施加镜头畸变、运动模糊、JPEG压缩、白平衡偏移，生成逼真的手机端数据。
- 若下游是红外热成像（单通道、高噪声、温度伪彩色），预训练数据就必须是真实红外图，不能用RGB转灰度图凑数。我们与热成像厂商合作，获取了5万张未标注的设备热图，直接用于MAE预训练。
数据清洗的硬核技巧：
自监督不需要标注，但绝不意味着可以放任脏数据。一张严重过曝的图像，会让MAE的重建loss爆炸，污染整个batch的梯度。我们采用三级清洗：
1. 基础过滤：用OpenCV计算每张图的cv2.Laplacian(img, cv2.CV_64F).var()，剔除模糊度（方差）<100的图像；用np.std(img)剔除对比度极低（标准差<15）的图像。
2. 内容过滤：用预训练的CLIP ViT-L/14，提取每张图的text embedding（prompt：“a photo of a scene”），计算所有图像embedding的PCA，剔除离第一主成分>3σ的离群点——这些往往是纯色背景、logo水印、文字截图等无效内容。
3. 噪声过滤：对医疗/工业图像，用预训练的DnCNN去噪模型，计算去噪前后PSNR，剔除PSNR<25dB的图像（说明噪声过大，重建无意义）。

这套流程在PCB缺陷检测项目中，从5万张原始图中筛出3.2万张高质量图，预训练loss曲线平滑度提升67%，最终下游mAP提高1.9%。数据清洗不是体力活，而是决定模型上限的智力活。

数据增强的领域特异性：
增强不是为了“造数据”，而是为了告诉模型：“这些变化是正常的，别把它当噪声”。因此，增强策略必须源于领域知识：
- 工业质检：重点模拟产线扰动——RandomPerspective（模拟相机角度变化）、RandomAffine（模拟传送带震动）、GridDistortion（模拟镜头畸变）。我们禁用ColorJitter，因为金属表面反光颜色本就随角度变化，强行调色会破坏物理一致性。
- 农业遥感：重点模拟大气与季节扰动——RandomSunFlare（模拟太阳耀斑）、RandomShadow（模拟云层阴影）、HueSaturationValue（模拟不同季节植被色度变化）。我们发现，加入RandomShadow后，模型对阴天拍摄的稻田病害识别鲁棒性提升23%。
- 安防监控：重点模拟低质采集——MotionBlur（模拟快速移动）、MultiplicativeNoise（模拟低照度噪声）、RandomGamma（模拟自动曝光波动）。实测显示，加入MultiplicativeNoise后，夜间车牌识别的字符准确率从78%提升至89%。

记住：每一种增强，都应该能在你的实际场景中找到对应的物理现象。没有物理依据的增强，就是给模型灌迷魂汤。

3.2 模型选型与参数配置：ViT不是默认答案，ResNet仍有不可替代性

“ViT is all you need”是个危险的幻觉。在真实项目中，模型选型是算力、精度、延迟、内存的四维博弈。我整理了一份实战参数表，基于NVIDIA A100（40GB）和Jetson Orin NX的实测数据：

模型架构	预训练数据量	预训练耗时（A100）	下游任务（mAP/Dice/Acc）	推理延迟（Orin NX, ms）	显存占用（A100, GB）	适用场景
ResNet-50 (MoCo v2)	100K自然图	18h	+1.2% / +0.8% / +0.5%	12	4.2	工业质检、移动端实时检测
ViT-Base (MAE)	1M自然图	42h	+3.7% / +2.1% / +1.9%	38	12.6	医疗影像、高精度分割
Swin-T (SimMIM)	500K自然图	35h	+2.9% / +1.8% / +1.5%	26	8.4	遥感分析、大图处理
EfficientNet-B3 (BYOL)	200K自然图	22h	+2.3% / +1.2% / +1.1%	18	5.8	边缘设备、电池供电场景

关键洞察：

ResNet-50依然坚挺：在需要低延迟、低显存的工业场景，它的综合性价比最高。MoCo v2对ResNet的改造非常成熟，微调稳定，社区支持完善。我们一个客户在产线上用ResNet-50+MoCo，把缺陷检出率从92.3%提到95.1%，推理延迟稳定在12ms，完全满足100fps产线节拍。
ViT的瓶颈不在精度，在工程：ViT-Base的精度提升是实打实的，但38ms的Orin延迟，对实时检测是致命伤。我们曾试图用TensorRT量化ViT，但Attention层的动态shape导致INT8精度暴跌。最终方案是：用ViT做离线预训练，微调时蒸馏到ResNet-50学生网络，精度损失<0.3%，延迟回到13ms。
Swin Transformer是折中之选：它的窗口注意力机制，既保留了ViT的全局建模能力，又通过局部窗口降低了计算复杂度。在遥感图像（2048×2048大图）上，Swin-T比ViT-Base快2.1倍，显存少37%，且mAP只低0.4%。

参数配置上，三个致命陷阱必须避开：

学习率不按比例缩放：ViT用AdamW，初始学习率应设为5e-4（不是ResNet的1e-3），且必须配合LinearWarmup（前10% epoch线性升温）。我们曾因沿用ResNet学习率，导致ViT预训练loss震荡，3天没收敛。
Batch Size不是越大越好：MAE对batch size敏感，过大（>256）会导致梯度噪声增大，重建质量下降。我们固定ViT-Base的batch size为128，用梯度累积到256等效。
Weight Decay必须精细调节：ViT对weight decay极其敏感，1e-2和1e-1可能导致最终精度差3%。我们的经验是：从5e-2开始，按0.5倍递减测试，选验证集重建PSNR最高的那个。

模型选型没有标准答案，只有最适合你场景的答案。把ViT当银弹，不如把ResNet用到极致。

3.3 训练基础设施：不是“有GPU就行”，而是“数据管道决定上限”

再好的模型，卡在数据加载上也是白搭。自监督训练的batch size大、数据增强重、I/O压力高，数据管道（Data Pipeline）往往是整个训练的瓶颈。我们踩过最深的坑，是预训练跑了三天，才发现90%时间花在DataLoader的__getitem__里——因为增强操作在CPU上串行执行。

解决方案是：全链路异步化与GPU卸载。

异步数据加载：不用PyTorch默认DataLoader，改用WebDataset+torchdata。WebDataset把数据打包成.tar文件（避免海量小文件IO），torchdata提供MultiProcessingDataLoaderIter，支持真正的多进程预取。我们把worker数从4调到16，数据加载时间从1.2s/batch降到0.15s/batch。
GPU增强卸载：把耗时的增强操作移到GPU上。例如，RandomAffine、RandomPerspective、GridDistortion，用kornia库重写，其CUDA kernel比OpenCV CPU版本快8–12倍。我们甚至把MAE的随机遮盖（Random Masking）也GPU化——用torch.bernoulli在GPU上生成mask，比CPU numpy快20倍。
混合精度与梯度检查点：ViT预训练必须开amp（Automatic Mixed Precision），torch.cuda.amp.GradScaler能稳定训练，显存节省35%。对ViT-Base，我们开启torch.utils.checkpoint，对每个Transformer Block启用梯度检查点，显存再降40%，训练速度只慢12%。
分布式训练的通信优化：多卡训练时，torch.distributed的默认nccl后端在跨节点时带宽吃紧。我们改用deepspeed的zero-offload，把优化器状态卸载到CPU，显存占用直降60%，且跨节点通信效率提升2.3倍。

这些不是炫技，而是实打实的生产力。一个项目能否在两周内完成预训练，往往取决于数据管道是否够硬。我建议所有团队，在启动预训练前，先用nvtop和iostat监控10个batch的资源消耗，定位瓶颈，再针对性优化。否则，就是拿钱烧时间。

4. 实操过程与核心环节实现：从零开始，跑通一个工业质检项目

4.1 项目背景与数据基线：300张标注图的PCB缺陷检测

客户是一家PCB制造商，产线每天产出数万块电路板，需检测焊点虚焊、线路短路、铜箔缺失等8类缺陷。现有方案是人工目检+传统图像算法（OpenCV轮廓分析），漏检率12.7%，误报率8.3%，人力成本高昂。他们提供了300张已标注的缺陷图（每类约30–50张），要求我们用深度学习提升检出率，同时保证推理延迟<20ms（满足产线100fps节拍）。

基线模型：YOLOv5s，ImageNet预训练，mAP@0.5=78.4%，推理延迟14ms，但对微小虚焊（<0.1mm）漏检严重。

4.2 预训练数据构建：从0到5万张高质量图

我们没有用网络爬虫，而是与客户合作，从产线相机直接获取原始视频流，截取5万帧无缺陷的PCB板图像。清洗与增强流程如下：

清洗：
- 用cv2.Laplacian剔除模糊图（方差<80）→ 剔除3200张
- 用cv2.threshold计算二值化占比，剔除大面积空白或纯铜箔图（有效区域<30%）→ 剔除1800张
- 用CLIP ViT-L/14计算embedding PCA，剔除离群点→ 剔除900张
  → 最终剩余44100张
增强：
- RandomPerspective（scale=0.05, p=0.7）→ 模拟相机安装误差
- RandomAffine（degrees=2, translate=(0.02,0.02), p=0.8）→ 模拟传送带微震
- GridDistortion（num_steps=5, distort_limit=0.3, p=0.5）→ 模拟广角镜头畸变
- MultiplicativeNoise（multiplier=(0.9,1.1), p=0.6）→ 模拟LED光源波动

所有增强均用korniaGPU实现，数据加载速度达1800 images/sec。

4.3 预训练实施：MoCo v3 on ResNet-50

选择MoCo v3而非MAE，原因有三：1）ResNet-50推理快，满足20ms要求；2）MoCo对小目标更友好（特征图分辨率高）；3）客户已有YOLOv5s代码库，骨干网络替换无缝。

模型配置：
- Backbone: ResNet-50 (modified for 1-channel input, as PCB images are grayscale)
- Queue size: 65536
- Momentum encoder EMA: 0.999
- Projection head: 3-layer MLP (2048→2048→128)
- Prediction head: 2-layer MLP (128→512→128)
训练配置：
- Batch size: 256 (32 per GPU × 8 GPUs)
- Optimizer: LARS (learning rate=4.8, weight decay=1e-6)
- Scheduler: CosineAnnealing with warmup (10 epochs)
- Epochs: 200
- Hardware: 8×A100 40GB
关键技巧：
- 输入改为单通道灰度图，第一层卷积权重从RGB预训练权重平均初始化（w_gray = (w_r + w_g + w_b) / 3），避免从零训练不稳定。
- 在MoCo队列更新时，加入torch.distributed.barrier()，确保所有GPU同步，避免队列污染。
- 每50 epoch保存checkpoint，并用一个小型验证集（1000张无标签图）计算特征一致性（Feature Consistency Score），作为早停依据。

预训练耗时36小时，最终对比学习loss稳定在0.123，特征一致性得分0.921（ImageNet预训练为0.876）。

4.4 微调策略：渐进式解冻 + 任务特定增强

微调YOLOv5s，采用渐进式解冻：

Stage 1 (Epoch 0–30)：冻结Backbone（ResNet-50），只训练YOLO Head。学习率1e-3。
→ mAP@0.5从78.4%升至82.1%，但小目标AP50（<32×32）仅74.2%。
Stage 2 (Epoch 31–60)：解冻Backbone最后3个Bottleneck Block（共16层），Head学习率1e-3，Backbone学习率1e-4。
→ 小目标AP50升至78.6%，mAP@0.5=84.7%。
Stage 3 (Epoch 61–100)：解冻全部Backbone，Head学习率1e-3，Backbone学习率5e-5。
→ 最终mAP@0.5=86.9%，小目标AP50=82.3%，推理延迟14.2ms（+0.2ms，可接受）。
任务增强：在微调阶段，加入Mosaic（YOLOv5原生）和Copy-Paste（将缺陷patch粘贴到正常板上，增强小目标），Copy-Paste对虚焊检测提升最大，AP50+3.1%。

4.5 结果与交付：不只是数字，更是产线价值

最终交付模型在客户提供的1000张测试图上表现：

指标	ImageNet预训练	MoCo v3预训练	提升
mAP@0.5	78.4%	86.9%	+8.5%
小目标AP50 (<32×32)	74.2%	82.3%	+8.1%
漏检率	12.7%	4.3%	-8.4%
误报率	8.3%	6.1%	-2.2%
推理延迟 (Orin NX)	14.0ms	14.2ms	+0.2ms

更重要的是产线价值：

人工目检岗位减少2人/班次，年节省人力成本约48万元；
漏检导致的客户投诉下降76%，客户续约率提升15%；
模型可解释性：我们用Grad-CAM生成热力图，直观展示模型关注虚焊区域，获得客户质量部门高度认可。

这个项目跑通后，客户立即追加了第二个项目：柔性电路板（FPC）缺陷检测。我们复用同一套预训练数据和流程，仅用5天就完成了新任务的微调，mAP@0.5达到85.2%。这印证了自监督的核心价值：一次预训练，多次下游任务，持续释放数据红利。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 预训练loss不下降？先查这三个地方

预训练loss卡住是最高频问题。不要急着调学习率，按顺序排查：

数据管道是否真的在喂数据？
在DataLoader的__iter__中插入print("batch loaded")，运行前10个batch，确认是否卡在某处。我们曾遇到WebDataset的.tar文件末尾有损坏字节，导致第7个batch永远加载不完，loss一直为nan。
增强是否破坏了自监督任务的语义？
例如，在旋转预测（RotNet）中，若用了RandomHorizontalFlip，则0°和180°样本会被混淆，模型学不会旋转。解决方案：可视化10个batch的增强后图像，肉眼检查是否还能分辨旋转角度。
梯度是否正常回传？
在loss计算后，插入：
```
print("Loss:", loss.item()) print("Grad norm:", torch.norm(torch.stack([p.grad.norm() for p in model.parameters() if p.grad is not None])))
```
若grad norm为0或inf，说明梯度中断。常见原因：torch.no_grad()误用、detach()位置错误、自定义loss中用了numpy操作。

实操心得：每次启动预训练，必先跑10个batch的dry run，打印loss、grad norm、数据shape，确认一切正常再正式训练。省下36小时，比调参重要。

5.2 微调后性能反而下降？警惕“灾难性遗忘”与“特征错位”

这是新手最崩溃的时刻：预训练loss很漂亮，微调后指标却比ImageNet还差。根本原因是：预训练学到的特征，与下游任务不兼容。

灾难性遗忘（Catastrophic Forgetting）：模型在微调时，把预训练学到的通用特征全忘了。典型表现：微调初期loss骤降，但验证集指标不涨反跌。
解法：降低微调学习率（ImageNet预训练lr的1/10），或使用L2 regularization（weight decay=1e-4）约束权重更新幅度。我们在一个医疗分割项目中，把lr从1e-3降到1e-4，Dice从0.72回升到0.79。
特征错位（Feature Misalignment）：预训练特征空间与下游任务标签空间不匹配。例如，MAE预训练ViT，其最后一层特征维度是768，但下游分割需要逐像素分类，直接接head会丢失空间信息。
解法：在ViT后插入Neck模块，如FPN或PAFPN，重新融合多尺度特征。我们用PAFPN后，分割边界IoU提升3.2%。
数据分布漂移（Distribution Shift）：预训练数据与下游数据分布差异过大。例如，用自然图像预训练，微调红外图。
解法：在微调初期（