视觉与文本先验引导的掩码组装用于少样本分割及更广泛应用

少样本分割(Few-shot Segmentation, FSS)旨在仅使用少量标注图像即可对新类别进行分割。由于CLIP在视觉与文本信息对齐方面的优势,将其融入FSS模型可有效提升模型的泛化能力。然而,即便采用CLIP模型,现有的基于CLIP的FSS方法仍存在对基础类别(base classes)产生偏差预测的问题,其根源在于类别相关特征层面的交互作用。为解决这一问题,本文提出一种视觉与文本先验引导的掩码组装网络(Prior Guided Mask Assemble Network, PGMA-Net)。该方法通过类无关(class-agnostic)的掩码组装机制缓解类别偏差,并借助亲和性(affinity)机制将多种任务统一建模为一致的框架。具体而言,首先将与类别相关的文本与视觉特征转换为类无关的先验表示,以概率图的形式表达。随后,引入一个先验引导的掩码组装模块(Prior-Guided Mask Assemble Module, PGMAM),该模块包含多个通用组装单元(General Assemble Units, GAUs),能够灵活支持多种即插即用的交互模式,包括视觉-文本交互、图像间与图像内交互、无需训练的交互以及高阶交互等。最后,为保障模型的类无关能力,提出一种具有通道丢弃机制的分层解码器(Hierarchical Decoder with Channel-Drop Mechanism, HDCDM),可灵活利用组装后的掩码与低层特征,且完全不依赖任何类别特定信息。实验结果表明,所提出的PGMA-Net在少样本分割任务中达到了新的最先进性能:在1-shot设置下,于PASCAL-5^i数据集上取得77.6的mIoU,在COCO-20^i数据集上达到59.4的mIoU。此外,无需额外微调,该方法还可直接应用于边界框级别少样本分割、跨域少样本分割、协同分割(co-segmentation)以及零样本分割(Zero-shot Segmentation, ZSS)等任务,展现出强大的泛化能力,从而构建了一个统一的任意样本分割(any-shot segmentation)框架。