Command Palette
Search for a command to run...
Make It Up:合成图像在广义少样本语义分割中的真实收益
Make It Up:合成图像在广义少样本语义分割中的真实收益
Guohuan Xie Xin He Dingying Fan Le Zhang Ming-Ming Cheng Yun Liu
摘要
广义少样本语义分割(Generalized Few-Shot Semantic Segmentation, GFSS)的根本局限在于:在标注稀缺的条件下,新类别外观的覆盖范围不足。尽管扩散模型(Diffusion)能够大规模合成新类别图像,但在缺乏掩码或掩码不可靠的场景下,由于覆盖不足以及监督信号噪声较大,其实际增益往往受限。为此,我们提出 Syn4Seg,一种生成增强的 GFSS 框架,旨在扩展新类别的覆盖范围并提升伪标签质量。Syn4Seg 首先通过为每个新类别构建去重后的嵌入提示库(embedding-deduplicated prompt bank),最大化提示空间(prompt-space)的覆盖,从而生成多样且类别一致的综合图像。随后,该方法通过两阶段细化进行支持引导的伪标签估计:i) 过滤一致性较低的区域以获取高精度种子;ii) 利用融合全局(支持集)与局部(图像)统计信息的图像自适应原型,对不确定像素进行重标注。最后,我们仅针对边界带区域及未标注像素,采用基于约束的 Segment Anything Model(SAM)更新策略,以提升轮廓保真度,同时避免覆盖高置信度的内部区域。在 PASCAL-5i 和 COCO-20i 数据集上的大量实验表明,Syn4Seg 在 1-shot 和 5-shot 设置下均取得一致的性能提升,凸显了合成数据作为一条可扩展路径的潜力,能够为 GFSS 提供可靠的掩码与精确的边界。
一句话总结
南开大学与天津理工大学的 researchers 提出了 Syn4Seg,这是一个利用 Stable Diffusion 生成多样化新类别图像,并采用支持引导的伪标签细化与基于 SAM 的边界校正框架,显著提升了 PASCAL-5i 和 COCO-20i 基准测试上广义少样本语义分割的性能。
主要贡献
- 本文提出了 Syn4Seg,这是一个生成增强的框架,通过构建去嵌入重复的提示库(prompt bank)来合成多样化且类别一致的新类别图像,从而扩展覆盖范围并提升广义少样本语义分割的泛化能力。
- 提出了一种自适应伪标签增强机制,通过两阶段过程优化合成掩码:首先过滤低一致性区域,然后利用图像自适应原型对不确定像素进行重新标记,从而获得更高质量的监督信号。
- 开发了一个基于 SAM 的边界细化模块,仅更新边界带和未标记像素,生成了清晰且空间连贯的轮廓,并在 PASCAL-5i 和 COCO-20i 基准测试上展现出一致的性能提升,证明了其分割性能的有效性。
引言
广义少样本语义分割(GFSS)旨在单次推理过程中同时分割基础类别和新类别,这一能力对于像素级标注稀缺的可扩展部署至关重要。然而,先前的方法面临困难,因为新类别依赖有限的人工支持样本,导致类内多样性不足和泛化能力弱;而现有利用扩散模型进行数据增强的尝试,往往因图像生成冗余以及分割掩码噪声大或对齐不准而效果不佳。为了克服这些障碍,作者提出了 Syn4Seg,该框架构建去嵌入重复的提示库以确保合成图像的多样性和类别一致性,随后通过两阶段伪标签细化流程和基于 SAM 的边界更新,为鲁棒的分割提供高质量的监督。
方法
作者提出了 Syn4Seg 框架,以缓解广义少样本分割(GFSS)中新类别图像短缺的问题。整体流程如框架图所示。该过程始于支持集(Support Set)和基础集(Base Set)。Syn4Seg 模块合成新类别的图像集(Synthetic Set)。这些合成图像与基础集一起输入到“基础与新类别学习”模块中,用于训练最终的分割模型,随后进行评估。

为了生成合成图像,作者利用了高质量多样化图像生成(HDIG)技术。直接使用类别名称往往导致多样性有限。HDIG 通过构建以目标类别为中心但语义多样化的提示集来解决这一问题。采用迭代提示生成策略,由智能体生成候选提示。这些提示使用 Stable Diffusion 3.5-Large 的文本编码器进行编码,以确保语义对齐。应用多样性阈值基于余弦相似度过滤提示。当前候选项与现有条目之间的最大余弦相似度计算如下: st,i=maxu∈Dt(i−1)φ~(pt,i)⊤u 其中 φ~(p) 是归一化的文本嵌入。仅当候选提示的相似度得分低于阈值 λ 时才被接受,以确保足够的多样性。接受的提示用于合成图像。定性比较突显了该方法的有效性,表明与标准类别名称提示相比,HDIG 生成的图像具有更丰富的视觉多样性,同时保持了类别一致性。

一旦生成合成图像,作者采用自适应伪标签增强(APE)来生成高质量掩码,因为 GFSS 网络产生的初始掩码通常含有噪声。请参阅详细的模块图以了解 APE 的内部结构。APE 包含两个阶段:自适应伪标签过滤(APF)和自适应伪标签重标记(APR)。在 APF 阶段,该方法通过评估预测区域与支持原型之间的对齐情况来丢弃不可靠的伪标签。新类别 k 的原型通过对标记为 k 的像素特征取平均来计算: μk=∑j∑p1[Mj(p)=k]1∑j∑p1[Mj(p)=k]fj(p) 对于区域 r,其与类别原型的余弦相似度计算为 s(r)=v^(r)⊤μ^k。如果 s(r)≥λ,则保留该区域;否则,将其标记为自由区域。在 APR 阶段,这些自由区域利用全局支持原型和图像局部原型的混合进行自适应重标记。图像 x 的自适应原型由下式给出: μ~k(x)=βμ^k+(1−β)μ^k(x) 其中 β 控制全局原型的影响。这确保了掩码保留可信的标签,同时用高置信度预测填充不确定区域。

最后,为了解决物体边界不精确的问题,作者应用了基于 SAM 的边界细化(SABR)。该模块利用 Segment Anything Model (SAM) 来细化掩码边界。通过识别边界像素并计算紧密的边界框,引导 SAM 生成二值前景预测。更新仅限于不确定区域,以防止覆盖高置信度的内部区域。该过程生成了具有显著改善边界保真度的最终训练掩码,可直接用于下游分割训练。
实验
- 在 PASCAL-5i 和 COCO-20i 基准测试上的实验验证,所提出的 Syn4Seg 方法在 1-shot 和 5-shot 设置下均显著优于最先进的方法,取得了更优的平均和调和 mIoU 分数。
- 定性分析表明,与现有技术相比,该方法为新类别生成了更连贯、更完整的分割掩码,同时减少了碎片化预测和虚假区域。
- 消融实验证实,通过 HDIG 增强图像多样性提供了更广泛的外观线索,而 APE 模块通过过滤未对齐区域和重标记模糊区域提高了掩码精度。
- 引入 SABR 有效细化了物体边界并解决了局部歧义,从而在基础类别和新类别之间实现了最佳的总体分割一致性。
- 超参数分析显示,适中的原型混合和阈值设置优化了合成信息与泛化之间的平衡,同时该方法对边界细化参数的变化保持鲁棒性。
- 使用更深的 ResNet-101 主干网络进行测试显示出一致的性能提升,表明更强的特征提取有助于捕捉细粒度细节,且该方法不过度依赖主干网络的深度。