论文速览：《AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusi》-深圳市維司達科技有限公司

论文链接：openaccess.thecvf.com/content/ICCV2025/papers/Zhong_AMDANet_Attention-Driven_Multi-Perspective_Discrepancy_Alignment_for_RGB-Infrared_Image_Fusion_and_ICCV_2025_paper.pdf

项目地址：https://github.com/Zhonghaifeng6/AMDANet

引言

如图 1 所示，由视觉差异（如不同模态间轮廓、形状和纹理的发散）引起的特征模糊，严重阻碍了一致语义表示的建立。对于基于融合损失的方法 [45, 65] 而言，最小化这种差异往往导致某一模态的特征占据主导地位（偏差）；而对于跨模态注意力机制 [25, 60, 68] 而言，则存在着在特征匹配过程中丢弃任一模态关键细节的风险。

因此，多模态语义分割的关键步骤在于：在融合过程中压缩并对齐模态间的特征差异，从而精确构建语义一致且易于分割的特征。

为了系统性地解决模态间特征差异在构建统一融合特征时造成的障碍，我们提出了注意力驱动的多模态差异对齐网络（AMDANet）。

我们将差异归类为两类：一是由特定模态外观引起的视觉差异；二是由编码器因正则化和非线性激活等因素 [35, 43, 47] 对特定模态的内在偏好所引入的经验性特征偏差（empirical feature biases）。

方法

预备知识
我们的目标是消除阻碍语义一致性特征建立的不同模态间的差异，并将有效的多模态特征耦合到一个统一的框架中。
给定多模态输入为一对可见光和红外图像，分别记为和。
我们的方法采用一个编码器 [52] 在四个层级上执行特征提取，生成构建一致表示所需的基础可见光特征和红外特征。

方法概览
图 2 展示了我们 AMDANet 的概览。
AMDANet 由三个关键组件组成：语义一致性推理（SCI）（3.1 节）、特征差异对齐模块（FDAM）（3.2 节）和互特征掩码学习（MFML）（3.3 节）。
首先，为了解决编码器产生的内在特征偏差，我们利用 SCI 评估网络在不同模态下的偏差表现。根据评估结果，将偏差从 Fvi 和 Fin 中剔除，从而减轻多模态特征的对齐难度。
其次，为了实现多模态特征间的语义对齐，我们采用 FDAM 从局部通道和全局空间维度去除了易于误判的无效特征。
最后，我们利用 MFML 通过对特定模态特征随机应用掩码扰动 [37] 来实现多模态特征的融合。

1. 语义一致性推理 (Semantic Consistency Inference)

受正则化和激活函数等非线性因素的影响，模型中的编码器往往对特定模态表现出经验性特征偏差 [9, 35, 43, 47]。这种特征偏差加剧了跨模态特征表示的发散，阻碍了模型建立语义一致的多模态融合特征的能力。

为了解决这个问题，如图 3 所示，我们提出了语义一致性推理（SCI）。

SCI 的核心在于强制编码器针对不同模态中的相同语义内容产生一致的语义表示，从而抑制由特征偏差引起的差异特征。

对于编码器从红外和可见光图像中提取的四个层级特征 Fin 和 Fvi，我们首先利用余弦相似度计算跨模态语义相似度作为偏差指标：

其中是偏差指标。我们使用阈值 τ=0.4（关于 τ 的分析见补充材料），当时，判定 Fin 和 Fvi 受到了编码器偏差的干扰。

对于 Fin 和 Fvi 中受编码器偏差影响的特征，我们计算其差异特征如下：

其中 ⊙ 是矩阵乘法，是由多层感知机（记为 ℓω ）生成的模糊掩码：

其中 CAT是拼接操作，是 Sigmoid 函数。的作用是利用跨模态的相似语义内容来区分受偏差影响的差异特征。

基于和，我们通过将其与原始特征、进行对比，计算编码器对不同模态的偏差分量：

最后，通过引入一个可学习参数 λ，我们利用偏差分量从原始特征中抑制受特征偏差影响的差异特征：

经过差异特征压缩后，和可以在后续模块中更有效地对齐，从而简化融合特征的建模复杂性。

2. 特征差异对齐模块 (Feature Discrepancy Alignment Module)

为了解决由不同外观引起的多模态图像视觉差异，我们设计了特征差异对齐模块（FDAM）。FDAM 由局部对齐和全局对齐组成。

2.1局部对齐 (Local-Alignment)

局部对齐的作用是利用局部注意力机制 [23, 56]，从细粒度视觉特征的角度对齐模态间的特征。

如图 2 所示，对于 SCI 的输出，我们沿通道维度应用全局最大池化和平均池化以捕获有效的响应特征。然后，我们使用 MLP 处理这些特征响应，生成针对有效和无效特征的注意力权重。基于，我们将其乘回以生成特征线索：

其中 ϑa 和 ϑm 分别代表全局平均池化和最大池化。

传统的挤压-激励（squeeze-excitation）方法 [6, 11, 12] 专注于增强有效特征，但在抑制视觉差异方面面临挑战。为解决此问题，我们计算特征线索与初始特征之间的差异，以消除模态间的差异。然后，我们使用 Sigmoid 将重新分配权重的差异结果添加到有效特征上，进一步压缩差异特征：

从局部空间角度来看，我们对应用最大池化和平均池化操作，以捕获其在局部空间维度上的像素级响应特征。

接着，我们使用卷积核映射有效的局部相关特征，并应用 Sigmoid 生成空间注意力权重。然后，我们将与相乘生成空间维度的特征线索：

其中和分别代表平均池化和最大池化。同样，我们使用 Sigmoid 处理特征线索与初始特征之间的差异，消除局部空间维度内的视觉差异特征：

我们将特征相加，得到局部对齐结果。

2.2 全局对齐 (Global-Alignment)

局部对齐专注于从特征图的局部视角对齐视觉差异，但缺乏从全局视角解决此类差异的能力 [2, 27]。先前的工作 [25, 60] 表明，跨模态长程上下文建模可以促进多模态特征对齐。然而，模态间的非关键特征可能导致跨模态匹配过程中的特征误判，使得模型丢弃某一模态的细节特征。

为了解决这个问题，如图 4 所示，我们在全局对齐中提出了显著性跨模态注意力。

我们的方法基于每个模态的显著特征进行特征对齐，有效地避免了由非关键特征引起的特征误判。

首先，我们采用显著特征增强 [32] 对内的有效上下文特征进行自增强。

这里的参考文献[32]是：MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER
论文精读(MobileVIT)《MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER》_mobilevit论文-CSDN博客

然后，我们对增强后的应用线性层计算，并对增强后的使用线性层计算和。

用于查询以获得跨模态匹配分数。这些分数突出了多模态特征中对有效信息和无效信息的不同关注点。然后，我们通过调制来细化两种多模态特征的一致表示：

其中是头数，是基于可见光特征的长程细化值。然后，我们使用来增强，从而得到基于红外特征全局视角的改进特征：

同样的方法被应用于使用从生成的去匹配从生成的和。

然后，我们计算基于红外特征的长程细化值。我们使用从可见光特征的全局视角调制并细化特征，最终输出多模态融合特征。我们的跨模态注意力机制将红外和可见光模态中的有效信息无缝集成到一致的语义特征中，使其从全局视角易于融合和分割。

3. 相互特征掩码学习 (Mutual Feature Mask Learning)

多模态图像中不同的特征分布往往导致各模态特征对预测的贡献程度不同。在这种情况下，网络很难学习到互补的跨模态特征。为了解决这个问题，如图 2 所示，我们提出了相互特征掩码学习（MFML）策略，以促进模态间特征的互补与融合。与直接对图像应用掩码 [37] 不同，MFML 的创新之处在于直接在特征图上执行像素级掩码，从而防止主干网络错误地重建图像掩码。

对于输入，我们沿特征图的通道维度应用掩码，随机掩盖某一模态的特征以生成掩码特征：

其中 R 代表随机选择红外或可见光特征图进行特征掩码操作。是一个与所选特征图维度相同的掩码矩阵，其中每个像素值为 0 或 1。基于，我们使用一致性正则化损失来衡量掩码特征和未掩码特征预测之间的一致性：

其中 D(⋅) 表示解码器 [60]。表示交叉熵损失。我们在一致性正则化预测 [31, 39, 58] 中的目标是最小化，从而通过掩码提示促进不同模态特征间的互补性。