news 2026/4/23 11:31:29

论文速览:《AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusi》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文速览:《AMDANet: Attention-Driven Multi-Perspective Discrepancy Alignment for RGB-Infrared Image Fusi》

论文链接:openaccess.thecvf.com/content/ICCV2025/papers/Zhong_AMDANet_Attention-Driven_Multi-Perspective_Discrepancy_Alignment_for_RGB-Infrared_Image_Fusion_and_ICCV_2025_paper.pdf

项目地址:https://github.com/Zhonghaifeng6/AMDANet


引言

如图 1 所示,由视觉差异(如不同模态间轮廓、形状和纹理的发散)引起的特征模糊,严重阻碍了一致语义表示的建立。对于基于融合损失的方法 [45, 65] 而言,最小化这种差异往往导致某一模态的特征占据主导地位(偏差);而对于跨模态注意力机制 [25, 60, 68] 而言,则存在着在特征匹配过程中丢弃任一模态关键细节的风险。

因此,多模态语义分割的关键步骤在于:在融合过程中压缩并对齐模态间的特征差异,从而精确构建语义一致且易于分割的特征。

为了系统性地解决模态间特征差异在构建统一融合特征时造成的障碍,我们提出了注意力驱动的多模态差异对齐网络(AMDANet)

我们将差异归类为两类:一是由特定模态外观引起的视觉差异;二是由编码器因正则化和非线性激活等因素 [35, 43, 47] 对特定模态的内在偏好所引入的经验性特征偏差(empirical feature biases)


方法

预备知识

我们的目标是消除阻碍语义一致性特征建立的不同模态间的差异,并将有效的多模态特征耦合到一个统一的框架中。

给定多模态输入为一对可见光和红外图像,分别记为

我们的方法采用一个编码器 [52] 在四个层级上执行特征提取,生成构建一致表示所需的基础可见光特征和红外特征

方法概览

图 2 展示了我们 AMDANet 的概览。

AMDANet 由三个关键组件组成:语义一致性推理(SCI)(3.1 节)、特征差异对齐模块(FDAM)(3.2 节)和互特征掩码学习(MFML)(3.3 节)。

  • 首先,为了解决编码器产生的内在特征偏差,我们利用 SCI 评估网络在不同模态下的偏差表现。根据评估结果,将偏差从 Fvi 和 Fin 中剔除,从而减轻多模态特征的对齐难度。
  • 其次,为了实现多模态特征间的语义对齐,我们采用 FDAM 从局部通道和全局空间维度去除了易于误判的无效特征。
  • 最后,我们利用 MFML 通过对特定模态特征随机应用掩码扰动 [37] 来实现多模态特征的融合。

1. 语义一致性推理 (Semantic Consistency Inference)

受正则化和激活函数等非线性因素的影响,模型中的编码器往往对特定模态表现出经验性特征偏差 [9, 35, 43, 47]。这种特征偏差加剧了跨模态特征表示的发散,阻碍了模型建立语义一致的多模态融合特征的能力。

为了解决这个问题,如图 3 所示,我们提出了语义一致性推理(SCI)

SCI 的核心在于强制编码器针对不同模态中的相同语义内容产生一致的语义表示,从而抑制由特征偏差引起的差异特征。

对于编码器从红外和可见光图像中提取的四个层级特征 Fin​ 和 Fvi,我们首先利用余弦相似度计算跨模态语义相似度作为偏差指标:

其中是偏差指标。我们使用阈值 τ=0.4(关于 τ 的分析见补充材料),当时,判定 Fin​ 和 Fvi 受到了编码器偏差的干扰。

对于 Fin 和 Fvi​ 中受编码器偏差影响的特征,我们计算其差异特征如下:

其中 ⊙ 是矩阵乘法,是由多层感知机(记为 ℓω )生成的模糊掩码:

其中 CAT是拼接操作,是 Sigmoid 函数。的作用是利用跨模态的相似语义内容来区分受偏差影响的差异特征。

基于​,我们通过将其与原始特征​、​ 进行对比,计算编码器对不同模态的偏差分量:

最后,通过引入一个可学习参数 λ,我们利用偏差分量从原始特征中抑制受特征偏差影响的差异特征:

经过差异特征压缩后,​ 和​ 可以在后续模块中更有效地对齐,从而简化融合特征的建模复杂性。


2. 特征差异对齐模块 (Feature Discrepancy Alignment Module)

为了解决由不同外观引起的多模态图像视觉差异,我们设计了特征差异对齐模块(FDAM)。FDAM 由局部对齐和全局对齐组成。

2.1局部对齐 (Local-Alignment)

局部对齐的作用是利用局部注意力机制 [23, 56],从细粒度视觉特征的角度对齐模态间的特征。

如图 2 所示,对于 SCI 的输出,我们沿通道维度应用全局最大池化和平均池化以捕获有效的响应特征。然后,我们使用 MLP 处理这些特征响应,生成针对有效和无效特征的注意力权重。基于,我们将其乘回以生成特征线索​:

其中 ϑa 和 ϑm​ 分别代表全局平均池化和最大池化。

传统的挤压-激励(squeeze-excitation)方法 [6, 11, 12] 专注于增强有效特征,但在抑制视觉差异方面面临挑战。为解决此问题,我们计算特征线索​ 与初始特征之间的差异,以消除模态间的差异。然后,我们使用 Sigmoid 将重新分配权重的差异结果添加到有效特征上,进一步压缩差异特征:

从局部空间角度来看,我们对应用最大池化和平均池化操作,以捕获其在局部空间维度上的像素级响应特征。

接着,我们使用卷积核映射有效的局部相关特征,并应用 Sigmoid 生成空间注意力权重​。然后,我们将相乘生成空间维度的特征线索

其中​ 分别代表平均池化和最大池化。同样,我们使用 Sigmoid 处理特征线索与初始特征之间的差异,消除局部空间维度内的视觉差异特征:

我们将特征相加,得到局部对齐结果

2.2 全局对齐 (Global-Alignment)

局部对齐专注于从特征图的局部视角对齐视觉差异,但缺乏从全局视角解决此类差异的能力 [2, 27]。先前的工作 [25, 60] 表明,跨模态长程上下文建模可以促进多模态特征对齐。然而,模态间的非关键特征可能导致跨模态匹配过程中的特征误判,使得模型丢弃某一模态的细节特征。

为了解决这个问题,如图 4 所示,我们在全局对齐中提出了显著性跨模态注意力

我们的方法基于每个模态的显著特征进行特征对齐,有效地避免了由非关键特征引起的特征误判。

首先,我们采用显著特征增强 [32] 对内的有效上下文特征进行自增强。

这里的参考文献[32]是:MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER

论文精读(MobileVIT)《MOBILEVIT: LIGHT-WEIGHT, GENERAL-PURPOSE, AND MOBILE-FRIENDLY VISION TRANSFORMER》_mobilevit论文-CSDN博客

然后,我们对增强后的应用线性层计算,并对增强后的使用线性层计算

用于查询以获得跨模态匹配分数。这些分数突出了多模态特征中对有效信息和无效信息的不同关注点。然后,我们通过调制来细化两种多模态特征的一致表示:

其中是头数,是基于可见光特征的长程细化值。然后,我们使用​ 来增强​,从而得到基于红外特征全局视角的改进特征​:

同样的方法被应用于使用从生成的去匹配从​ 生成的​。

然后,我们计算基于红外特征的长程细化值。我们使用​ 从可见光特征的全局视角调制并细化特征​,最终输出多模态融合特征​。我们的跨模态注意力机制将红外和可见光模态中的有效信息无缝集成到一致的语义特征中,使其从全局视角易于融合和分割。

3. 相互特征掩码学习 (Mutual Feature Mask Learning)

多模态图像中不同的特征分布往往导致各模态特征对预测的贡献程度不同。在这种情况下,网络很难学习到互补的跨模态特征。为了解决这个问题,如图 2 所示,我们提出了相互特征掩码学习(MFML)策略,以促进模态间特征的互补与融合。与直接对图像应用掩码 [37] 不同,MFML 的创新之处在于直接在特征图上执行像素级掩码,从而防止主干网络错误地重建图像掩码。

对于输入,我们沿特征图的通道维度应用掩码,随机掩盖某一模态的特征以生成掩码特征

其中 R 代表随机选择红外或可见光特征图进行特征掩码操作。是一个与所选特征图维度相同的掩码矩阵,其中每个像素值为 0 或 1。基于,我们使用一致性正则化损失来衡量掩码特征和未掩码特征预测之间的一致性:

其中 D(⋅) 表示解码器 [60]。表示交叉熵损失。我们在一致性正则化预测 [31, 39, 58] 中的目标是最小化​,从而通过掩码提示促进不同模态特征间的互补性。

4. 损失函数 (Loss Function)

总损失函数由图像融合损失、语义分割损失和掩码一致性正则化损失组成。我们使用交叉熵损失作为语义分割损失:

其中和 g 分别代表预测值和真值。遵循先前的工作 [60],我们使用显著信息损失和一致性颜色损失来定义图像融合损失

其中的 ∇ 和 ∥⋅∥分别表示梯度算子和平均绝对误差 (MAE),而代表融合图像。具体而言,我们使用 [60] 的融合头处理 FDAM 的输出以生成融合图像。在中,指将图像转换到 YCrCb 颜色空间 [19] 后获得的红色和蓝色色度分量。S(⋅)表示数据增强。 总体而言,总损失定义为:

其中 α1,α2​ 和 α3​ 是超参数,具体值分别为 1, 0.5 和 0.5。关于 α1,α2和 α3的分析见补充材料。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:26:39

39、FreeBSD 文件共享:NFS 与 Samba 配置指南

FreeBSD 文件共享:NFS 与 Samba 配置指南 1. NFS 概述 NFS(Network File System)允许用户将远程系统上的特定文件夹导出到网络,其他机器可以连接到该系统并请求访问这些共享文件夹。客户端将所需的共享文件夹挂载到自己的文件系统中,就像 NFS 共享是另一个 UNIX 磁盘或分…

作者头像 李华
网站建设 2026/4/23 0:10:15

使用 Docker Compose 部署 LobeChat 数据版服务端

使用 Docker Compose 部署 LobeChat 数据版服务端 你有没有遇到过这样的情况:想用一个开源 AI 聊天工具,但发现它只能本地运行、不支持多用户登录、会话一关就丢?更别提上传文件、长期记忆这些“现代”功能了。直到我试了 LobeChat —— 这个…

作者头像 李华
网站建设 2026/4/18 10:29:25

讯飞星火认知引擎如何通过LobeChat对外提供服务?

讯飞星火认知引擎如何通过LobeChat对外提供服务? 在企业智能化转型的浪潮中,越来越多组织希望将大语言模型(LLM)能力快速落地到实际业务场景。然而,一个普遍存在的困境是:像讯飞星火这样具备强大推理能力的…

作者头像 李华
网站建设 2026/4/2 21:42:43

【Python办公自动化】PyQt5 TXT Word 转 PDF 转换器

目录 PyQt5 TXT & Word 转 PDF 转换器 功能特点 前置要求 安装 使用方法 技术细节 GUI (PyQt5) 转换逻辑 (win32com) 多线程 注意事项 专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 个人博客主页:请点击——> 个人的博…

作者头像 李华
网站建设 2026/4/23 8:57:49

containerd stats_collect_period 参数学习

文章目录1、参数含义2、配置位置3、使用场景4、 调整建议5、验证配置stats_collect_period 是 containerd 配置中的一个参数,用于设置CRI(容器运行时接口)插件收集容器统计信息的频率。该参数的值以持续时间格式(如 “10s”&#…

作者头像 李华
网站建设 2026/4/20 17:24:18

Docker与本地PaddleOCR环境配置指南

Docker与本地PaddleOCR环境配置指南 在工业检测、金融票据识别和文档数字化等实际场景中,中文OCR的准确率与稳定性直接决定系统可用性。传统OCR工具面对模糊文本、复杂背景或倾斜排版时常力不从心,而基于深度学习的解决方案则展现出更强的适应能力。 百…

作者头像 李华