从ResNet到ViT：手把手教你用Grad-CAM可视化不同视觉模型的‘注意力’-深圳市維司達科技有限公司

从ResNet到ViT：揭秘视觉模型注意力机制的实战对比

计算机视觉领域近年来经历了从卷积神经网络（CNN）到视觉Transformer（ViT）的范式转变。这种架构演进不仅改变了模型处理图像的方式，也重塑了我们理解模型决策过程的视角。本文将带您深入探索两种代表性架构——ResNet50和ViT，通过Grad-CAM技术直观比较它们的"注意力"分布差异。

1. 视觉模型可解释性基础

理解模型如何"看"图像是提升计算机视觉系统可靠性的关键。Grad-CAM（Gradient-weighted Class Activation Mapping）作为主流的可视化技术，通过反向传播梯度信息生成热力图，揭示模型决策依赖的图像区域。

核心原理：Grad-CAM利用目标类别对最后一个卷积层特征图的梯度，计算各通道的重要性权重，最终生成与输入图像同尺寸的热力图。关键公式可表示为：

# Grad-CAM核心计算伪代码 def grad_cam(model, image, target_class): # 获取最后一个卷积层的输出和梯度 conv_output, grad = get_conv_output_and_gradients(model, image, target_class) # 计算各通道权重 weights = global_average_pooling(grad) # 生成热力图 cam = relu(weights * conv_output).sum(axis=-1) return normalize(cam)

技术演进：从最初的CAM到Grad-CAM，再到后来的Grad-CAM++、Score-CAM等变体，可视化技术不断适应新型网络架构的需求。下表对比了几种主流方法：

方法	需要修改网络	适用架构	计算复杂度	定位精度
CAM	是	CNN-GAP结构	低	中等
Grad-CAM	否	通用CNN	中	高
Grad-CAM++	否	深层CNN	较高	很高
Layer-CAM	否	多层CNN/ViT	高	极高

提示：对于ViT等非卷积架构，需要调整特征层选择策略，通常关注多头注意力模块的输出。

2. ResNet50注意力可视化实战

作为CNN架构的标杆，ResNet50通过残差连接解决了深层网络梯度消失问题。我们首先配置实验环境：

pip install torch torchvision opencv-python matplotlib

实现步骤：

加载预训练模型和示例图像
注册目标卷积层的正向/反向hook
计算类别得分梯度并生成热力图
将热力图叠加到原始图像

关键代码实现：

import torch from torchvision.models import resnet50 model = resnet50(pretrained=True) model.eval() # 注册最后一个卷积层的hook features = {} def forward_hook(module, input, output): features['last_conv'] = output model.layer4[2].conv3.register_forward_hook(forward_hook) gradients = {} def backward_hook(module, grad_input, grad_output): gradients['last_conv'] = grad_output[0] model.layer4[2].conv3.register_backward_hook(backward_hook)

典型特征：ResNet50的热力图通常呈现以下特点：

聚焦于局部纹理和边缘特征
对物体部分遮挡较鲁棒
热力区域与人类直觉较一致
深层特征具有层次化抽象能力

3. Vision Transformer注意力机制解析

ViT将图像分割为16x16的patch序列，通过多头注意力机制建立全局依赖关系。这种架构差异导致传统的Grad-CAM需要调整：

ViT特有挑战：

缺乏标准卷积层
注意力头间存在竞争
位置编码影响显著
分类token的特殊作用

改进后的ViT-Grad-CAM实现要点：

# ViT特定实现 def vit_grad_cam(model, image, target_class): # 获取最后一层注意力权重和梯度 attn_weights, grad = get_vit_attention_and_gradients(model, image, target_class) # 融合多头注意力 combined_attn = (attn_weights * grad.abs()).mean(dim=1) # 上采样到原图尺寸 cam = F.interpolate(combined_attn, size=image.shape[2:]) return cam

对比观察：ViT的热力图常表现出：

更关注语义相关区域
对全局上下文敏感
边界定位相对模糊
受背景干扰更明显

4. 跨架构对比与案例分析

通过同一组测试图像对比两种架构的热力图，我们可以发现有趣的差异：

测试场景	ResNet50表现	ViT表现
部分遮挡物体	仍能定位被遮挡部分	更关注可见区域
小目标检测	定位精确但可能忽略上下文	能关联周边环境
复杂背景	受干扰较小	可能错误关注背景相似区域
多物体场景	逐物体独立响应	建立物体间关联

典型实例分析：

以一张"猫躺在沙发上"的图片为例：

ResNet50会分别高亮猫的纹理特征和沙发的织物图案
ViT则可能同时激活猫和沙发区域，反映其理解两者语义关系

注意：ViT的热力图解释需要结合其patch划分方式，单个patch的激活可能对应多个语义概念。

5. 进阶技巧与优化策略

提升可视化效果的实用方法：

多尺度融合：

# 结合不同层的特征 def multi_scale_cam(model, image, layers): cams = [] for layer in layers: cam = grad_cam_for_layer(model, image, layer) cams.append(resize(cam)) return blend_cams(cams)

注意力头分析：
- 可视化各注意力头的热力图
- 识别专注于不同语义概念的头
- 剔除噪声较大的头
时序可视化（视频应用）：
- 跟踪热力区域随时间变化
- 分析模型注意力动态特性
- 检测异常关注模式

优化建议：

对CNN架构，尝试不同卷积层的组合
对ViT，实验不同的注意力头融合策略
考虑结合传统边缘检测结果
使用平滑滤波提升可视化效果

6. 实际应用中的经验分享

在工业级视觉系统中使用注意力可视化时，有几个实用建议：

首先，不同任务需要不同的关注粒度。细粒度分类（如鸟类识别）需要更局部的注意力，而场景理解则需要全局上下文。我们可以通过调整Grad-CAM的目标层来适应这些需求：

# 选择不同深度的目标层 if fine_grained_task: target_layer = model.layer3[-1].conv2 # 中层特征 else: target_layer = model.layer4[-1].conv3 # 深层特征

其次，处理高分辨率图像时，直接应用Grad-CAM可能导致计算资源问题。这时可以采用分块处理策略：

将图像分割为重叠的区块
对各区块独立计算热力图
融合结果时考虑重叠区域加权平均

最后，在医疗影像等专业领域，单纯的视觉热力图可能不够直观。我们可以结合领域知识添加标注：

def medical_cam_enhancement(cam, dicom_metadata): # 结合DICOM元数据标注关键解剖结构 for structure in dicom_metadata['annotations']: cam = draw_annotation(cam, structure) return apply_colormap(cam, 'hot')

这些技巧来自实际部署中的反复调试，特别是处理医学影像时，发现结合领域知识标注能显著提升可视化结果的可解释性。