news 2026/6/15 13:50:53

CVPR 2026 | SACM:一种基于双层适配器的免提示曲线结构分割方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2026 | SACM:一种基于双层适配器的免提示曲线结构分割方法

一、论文信息

论文题目:Dual-level Adapter Boosting Prompt-free Curvilinear Structure Segmentation
论文作者:Kai Zhu, Li Chen, Jun Cheng
发表单位:School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan, China Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System,Wuhan University of Science and Technology, Wuhan, China Institute for Infocomm Research (I2R), A*STAR, Singapore
发表会议 :CVPR 2026

二、论文主要贡献

针对现有曲线结构分割方法依赖大量领域标注、跨域泛化能力弱,以及通用视觉大模型 SAM 的适配方案仅做单层级局部优化、无法建模曲线长程拓扑连续性的问题,本文提出通用曲线分割框架SACM(Segment Anything Curve Model),核心贡献如下:
1.提出了首个基于预训练 SAM 的通用、免提示(prompt-free)曲线结构分割框架 SACM,无需用户交互式提示即可直接输出分割掩码,仅需少样本数据即可完成微调,具备强大的跨域泛化能力。
2。设计了双层适配器(Dual-Level Adapter, DLAda)架构:块内适配器嵌入 Transformer 块内部,实现细粒度的局部特征调优;块外适配器作用于 Transformer 块之间,实现全局多层特征注入与跨域特征对齐;同时提出适配器融合模块,聚合多层外部适配器特征并注入掩码解码器,配合解码器的双阶段细化流程,同时提升分割的边界精度与拓扑连通性。
3.在 12 个覆盖不同模态、不同领域的曲线结构数据集上完成了充分的实验验证,仅使用 18 张标注图像完成微调的条件下,SACM 在所有数据集上均超越现有最优方法,证明了其在少样本、数据稀缺场景下的实用价值与优秀的跨域泛化能力。

三、论文创新点

(1) 双层互补的适配器架构设计
现有 SAM 适配方法仅在 Transformer 块内部插入适配器,只能完成局部特征优化,无法建模曲线结构所需的长程空间依赖。本文首次提出块内 + 块外的双层适配器架构:块内适配器专注于局部细节特征的精细化表达,适配曲线纤细、边界模糊的特性;块外适配器在块间传递全局结构信息,通过注意力层的逐层扩散捕捉长程拓扑连续性。二者功能互补,同时解决了曲线分割的局部细节保真与全局结构连贯两大核心难题。
(2) 免提示的解码器设计与双阶段细化机制
SAM 原生的点、框、掩码提示机制天然不适用于密集、交错的曲线网络:稀疏提示会破坏细结构连续性,固定尺度无法适配多尺度曲线,且提示本身不包含拓扑约束。本文提出适配器融合模块,通过自适应加权聚合编码器多层特征,替代交互式提示实现全自动分割;同时设计双阶段掩码细化流程,第一阶段筛选拓扑连贯的候选,第二阶段优化边界精度,从机制上缓解了曲线分割中断裂、伪分支多的通病。
(3) 极致的少样本与跨域泛化能力
传统曲线分割方法通常需要在单一领域标注大量数据才能取得较好效果,跨领域性能会急剧下降。本文基于大模型的通用先验与适配架构的精巧设计,仅用 6 个数据集各 3 张、合计 18 张标注图像完成微调,即可在医学影像、遥感、工业检测等 12 个不同领域的数据集上取得 SOTA 性能,实现了曲线结构知识的跨类别、跨模态、跨域迁移,大幅降低了曲线分割任务的标注成本。

四、方法

4.1整体框架

SACM 以冻结权重的预训练 SAM 图像编码器为基础骨干,整体由两大核心模块构成:
1.双层适配器图像编码器:在 SAM 的 Transformer 编码器中嵌入块内、块外两类适配器,在保留预训练通用知识的前提下,完成曲线结构的多粒度特征适配;
2.免提示适配器融合解码器:聚合所有外部适配器的多层特征,通过双阶段掩码细化模块,输出边界精准、拓扑连贯的分割结果。
整个训练过程仅更新适配器与解码器参数,属于参数高效的微调方案。

4.2 双层适配器架构

4.2.1 块内适配器(Adapter-I)

块内适配器嵌入在每个 Transformer 块的 MLP 子模块残差路径中,定位是细粒度的局部特征适配,重点强化细线结构与背景的区分度、优化边缘等局部细节特征。其结构为经典的瓶颈式适配器:输入特征先经过降维投影矩阵压缩通道维度,通过 GELU 激活函数后,再经升维投影矩阵恢复原始维度。该设计为逐 token 的通道级更新,不会破坏预训练 Transformer 的全局注意力结构,仅在局部特征层面做针对性优化,适合捕捉曲线的细微边界与形态特征。

4.2.2 块外适配器(Adapter-E)

块外适配器作用于整个 Transformer 块的外层残差连接上,定位是全局上下文建模与跨层特征融合,负责捕捉曲线的长程连续性与分支拓扑结构。块外适配器接收经过自注意力层完成 token 混合后的块输出特征,经层归一化后执行瓶颈结构的特征变换,再通过残差连接注入到下一层编码器的输入中。随着编码器层数加深,块外适配器注入的结构信息会通过后续的自注意力层不断扩散,逐步覆盖远距离的 token,从而建立长距离的空间依赖,保障曲线结构的全局连通性。论文通过 Grad-CAM 可视化验证了二者的功能差异:块内适配器的注意力集中在局部血管区域,强化细节;块外适配器的注意力覆盖更完整的血管网络,捕捉全局结构。

4.3 免提示适配器融合解码器

4.3.1 适配器融合模块SAM 原生的提示机制在曲线分割任务中存在三重天然缺陷:

1.位置偏差:稀疏的点 / 框提示会引入局部化偏差,模糊细边界、破坏纤细结构的连续性;
2.尺度失配:固定形式的提示难以同时编码细曲线与复杂交叉口的多尺度信息;
3.拓扑无关:提示本身不包含全局连续性约束,无法保障分支网络的拓扑完整性。
基于此,SACM 完全摒弃交互式提示,通过适配器融合模块提供特征层面的全局结构先验,实现全自动的免提示分割:
提取编码器所有层的块外适配器输出特征,对每层特征做平均池化,得到对应层的全局描述子;将所有层的描述子拼接后送入前馈网络(FFN),再经 Softmax 输出每层特征的自适应权重,自动学习不同层级特征对曲线分割的贡献;按权重对多层特征做加权融合,经 MLP 变换与上采样后,通过残差连接注入掩码解码器,为解码过程提供全局结构先验。

4.3.2 双阶段掩码细化

单次解码的掩码往往存在 “局部看似合理、全局拓扑断裂” 的问题,容易出现血管中断、伪分支等拓扑错误。为此本文设计了双阶段细化模块,将 “全局拓扑一致性” 与 “局部边界精度” 的优化解耦:
第一阶段:通过第一个 MLP 生成粗掩码,基于掩码的最大空间激活强度计算置信度,对所有预测头按置信度降序排序,筛选出拓扑连贯性更优的候选;
第二阶段:基于排序后的候选描述子,通过第二个 MLP 生成精细化掩码,最终由 MLP 结构的 IoU 预测器从候选中选出最优掩码。
该设计让拓扑表现更优的预测主导最终结果,同时保留了精细的边界细节,实现了边界精度与拓扑连通性的平衡。

4.4 损失函数与评价指标

1.损失函数:采用二元交叉熵(BCE)损失与 Dice 损失的加权组合,公式为LSACM=LBCE+λ⋅LDice\mathcal{L}_{SACM}=\mathcal{L}_{BCE}+\lambda\cdot\mathcal{L}_{Dice}LSACM=LBCE+λLDice,其中λ\lambdaλ控制两项损失的权重平衡。
2.评价指标:同时采用像素级指标与拓扑感知指标做全面评估:
Dice、IoU:衡量预测掩码与真值的像素级重叠程度;
clDice:通过骨架化的中心线对比,评估分割结果的拓扑正确性;
HD95(95% 豪斯多夫距离):评估边界定位精度,降低极端离群点的干扰,数值越低表示边界越精准。

五、实验分析

主要分析 SOTA 对比实验以及消融实验,验证各模块的有效性与模型的泛化性能。

5.1 实验设置

所有 SAM 相关对比方法均采用 SAM 的 ViT-L 图像编码器,使用完全相同的预训练权重初始化,保证对比公平性。训练采用少样本协议:每个训练数据集随机抽取 3 张图像,6 个训练数据集合计仅 18 张标注图像用于微调。实验硬件环境为 NVIDIA RTX 4090(24GB 显存),基于 PyTorch 2.9.1 实现;微调轮次为 50 轮,批次大小为 1,初始学习率为3×10−43\times10^{-4}3×104,采用 AdamW 优化器与余弦学习率调度器。训练过程中冻结 SAM 图像编码器的全部权重,仅更新双层适配器与解码器模块。

5.2SOTA 对比结果

5.2.1已见域性能

在 4 个已见基础数据集上,SACM 在 Dice、IoU、clDice、HD95 全部四项指标上均达到最优水平。例如在 DRIVE 数据集上,SACM 取得 Dice 78.89%、IoU 65.24%、clDice 29.02% 的成绩,HD95 仅 8.34 像素,无论是像素重叠度、拓扑正确性还是边界精度,均显著优于传统 CNN 方法与现有 SAM 适配方案。

5.2.2 未见域泛化性能

在同类别未见数据集上,SACM 的泛化优势同样显著:DSCA 数据集 Dice 达 68.43%,FIVES 数据集 Dice 达 75.48%,XCAD 数据集 Dice 达 74.29%,大幅领先所有对比方法,证明模型学到的曲线特征具备很强的跨数据集迁移能力。在全新类别的跨领域测试中,SACM 依然保持性能优势:WIRE 数据集 Dice 达 54.60%,ROAD 数据集 Dice 达 40.43%,LEAF 与 TYRE 数据集也均大幅超越基线。这说明 SACM 真正学到了曲线结构的通用形态知识,能够迁移到训练中从未见过的领域与任务中。定性可视化结果显示,相比对比方法普遍存在的断裂、伪分支、边界模糊问题,SACM 输出的掩码更干净,结构连续性更强,在复杂背景、低对比度、局部遮挡的场景下,依然能较好地保留曲线的长程连通性与细节特征。

5.3 消融实验


实验结果表明:
1.原生 SAM 在曲线分割任务上表现极差,证明领域适配是必要的;
2.块内适配器与块外适配器单独使用均能带来巨大性能提升,且二者同时使用时性能进一步提升,验证了二者的互补性;
3.适配器融合与双阶段细化均能带来持续的性能增益,证明每个模块都发挥了对应的作用。

六、个人声明

本文为对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 13:46:53

[论文学习]DP2Unlearning:高效且具保证的大型语言模型遗忘框架(基于差分隐私的 LLM Unlearning 方法)

An Efficient and Guaranteed Unlearning Framework for LLMs 核心问题与动机 大型语言模型 (LLMs) 在训练过程中容易记忆训练资料中的私人资讯 (PII)、版权内容或敏感事实,导致在推论时可能无意中洩露这些资讯。这带来严重的伦理、法律与实务挑战,例如符…

作者头像 李华
网站建设 2026/6/15 13:41:52

ImageMagick 7.1.2-23 官方版下载(夸克网盘+百度网盘,SHA256校验)

ImageMagick 7.1.2-23 官方版下载(夸克网盘百度网盘,SHA256校验) 国内访问 GitHub Release 有时较慢,这里把官方 Release 安装包同步到夸克网盘和百度网盘,方便下载。文件来自官方 GitHub Release,本地已按…

作者头像 李华
网站建设 2026/6/15 13:38:50

用RISC-V Sail Model做形式化验证?手把手教你从源码编译到生成C模拟器

从零构建RISC-V Sail Model工具链:实战C模拟器生成指南当我们需要验证自定义的RISC-V指令扩展或进行严格的架构兼容性测试时,Sail Model提供的形式化规范成为不可或缺的工具。不同于市面上常见的模拟器,基于Sail语言构建的参考模型能够精确到…

作者头像 李华
网站建设 2026/6/15 13:37:53

汽车制造机器人数据采集联网监控系统方案

某汽车制造业工厂已实现自动化生产,包括自动喷涂、螺钉锁付、总装等。其中自动喷涂机器人(ABB)、总装机器人(发那科)、螺钉锁付机器人(雅马哈),由于通信协议各不相同,在与…

作者头像 李华
网站建设 2026/6/15 13:36:54

揭秘AI专著撰写:AI写专著工具,快速产出20万字高质量专著!

创新与AI专著写作工具的兴起 创新是学术专著的核心,亦是写作过程中的一大阻碍。一本优质的专著,不应仅仅是对现有研究成果的简单汇总,而是要提出贯穿全书的独到见解、理论框架或研究方法。在众多的学术文献中,发现未被探究的研究…

作者头像 李华