news 2026/4/23 11:31:24

【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

文章:GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码:https://reachomk.github.io/gen2seg

单位:加州大学戴维斯分校


一、问题背景

人类仅凭有限经验就能识别各类陌生物体,而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中,现有模型要么需要大规模标注数据(如SAM依赖1100万张图像和11亿个掩码),要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练,就具备强大的跨类别、跨风格实例分割能力,成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

  1. 核心思路:借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构,天然蕴含感知分组机制,将其适配到类别无关的实例分割任务。

  2. 模型选择与微调:基于Stable Diffusion 2和MAE(仅经ImageNet-1K预训练),通过端到端微调实现分割,无需互联网规模预训练或文本监督。

  3. 实例着色损失设计:将分割掩码编码为RGB图像(每个实例分配唯一颜色、背景为黑色),设计三重损失: intra-实例方差损失(保证实例内像素颜色一致)、inter-实例分离损失(推开实例外像素与实例颜色)、均值分离损失(区分不同实例的颜色中心),无需固定颜色映射即可实现精准分割。

  4. 点提示分割方案:通过高斯加权平均计算提示点的查询向量,结合相似度映射与双边滤波,实现简单高效的点提示二进制掩码生成,无需额外训练掩码解码器。

三、实验结果

  1. 零样本泛化表现:在COCOexc、DRAM(艺术)、EgoHOS(第一视角)、iShape(精细结构)、PIDRay(X光)5个数据集上,SD模型性能接近强监督的SAM,iShape数据集上mIoU达51.4,远超SAM的16.8。

  2. 边缘检测优势:BSDS500数据集上,SD模型边缘AP达93.4,显著优于SAM的79.0,即使训练数据为多边形边缘的COCO,仍保持10个百分点以上的优势。

  3. 数据鲁棒性:仅用5类物体(书籍、椅子等)或简单形状数据集(ClevrTex)训练,仍能保持良好泛化;面对色调调整、灰度化等图像扰动,掩码质量下降有限。

  4. 高效训练特性:SD模型仅需4块RTX6000 Ada GPU训练29小时(8.7万张图像、370万掩码),远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势
  1. 泛化能力突出:无需见过目标类别掩码,就能分割人类、动物、印象派艺术、X光图像等未训练场景,突破数据依赖。

  2. 细节分割精准:在精细结构(如电线)和模糊边界(如马车与马匹)分割上优于SAM,边缘更清晰。

  3. 训练高效灵活:仅需微调解码器或少数层即可达到理想效果,支持少量标注数据训练,适配不同硬件资源。

  4. 鲁棒性强:对图像颜色、纹理变化不敏感,适配复杂真实场景。

局限
  1. 小物体分割薄弱:受预训练偏置影响,对小型物体的分割性能较差(COCO S exc的mIoU仅8.5)。

  2. 训练分辨率受限:微调分辨率低于SAM(480×640/224×224 vs 1024×1024),可能影响细节捕捉。

  3. 部分场景边界模糊:倾向于将云层、草地等归为背景,高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失,实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割,为低成本、高泛化的视觉感知任务提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 8:18:03

大数据领域数据产品的用户体验设计的心理学原理

大数据领域数据产品的用户体验设计的心理学原理 关键词:大数据、数据产品、用户体验设计、心理学原理、认知心理学、情感心理学 摘要:本文深入探讨了大数据领域数据产品的用户体验设计中所涉及的心理学原理。首先介绍了大数据数据产品用户体验设计的背景…

作者头像 李华
网站建设 2026/4/16 20:59:19

操作数据和分析数据

原文:towardsdatascience.com/operational-and-analytical-data-54fc9de05330 不幸的是,我们仍然对操作数据和分析数据究竟是什么存在很大的困惑。因此,我们仍在努力寻找从整体企业视角处理数据的正确方法。 被识别为“数据大分裂”的东西&a…

作者头像 李华
网站建设 2026/4/23 1:37:50

Meta第四季营收599亿美元:净利228亿美元 同比增9%

雷递网 乐天 2月8日Facebook母公司Meta Platforms(Nasdaq: META) 日前发布截至2025年12月31日的财报。财报显示,Meta在2025年营收为2009.66亿美元,较上年同期的1645亿美元增长22%。Meta在2025年运营利润为832.76亿美元,较上年同期的693.8万美…

作者头像 李华
网站建设 2026/4/18 15:24:09

【环境变量】

环境变量 环境变量可以传递给shell中运行的程序以及shell使用,不是环境变量的shell变量只能由shell使用。 PATH:决定输入命令时,Shell 到哪里去寻找可执行文件,PATH 决定了哪些目录里的命令可以直接执行,而不需要写完…

作者头像 李华
网站建设 2026/4/23 11:02:14

使用阿里小云KWS模型构建语音控制智能灯具系统

使用阿里小云KWS模型构建语音控制智能灯具系统 1. 为什么需要语音控制的智能灯具 晚上双手端着热茶走进客厅,想开灯却腾不出手按开关;深夜孩子突然醒来要喝水,摸黑找开关容易碰倒东西;老人行动不便时,弯腰插拔灯具电…

作者头像 李华
网站建设 2026/4/23 8:50:02

万象熔炉Anything XL保姆级教程:从安装到出图全流程

万象熔炉Anything XL保姆级教程:从安装到出图全流程 你是不是也经历过这些时刻: 想生成一张二次元壁纸,却卡在模型下载、环境配置、依赖冲突上; 好不容易跑通了WebUI,调参像在猜谜——CFG设多少?步数该不该…

作者头像 李华