
摘要
广义少样本语义分割(GFSS)旨在将每个图像像素分割为具有大量训练样本的基础类别或仅有少量(例如1-5张)训练图像的新类别。与仅限于分割新类别的广泛研究的少样本语义分割(FSS)相比,尽管GFSS更具实际应用价值,但其研究相对较少。现有的GFSS方法基于分类器参数融合,即将新训练的新类别分类器和预训练的基础类别分类器结合以形成新的分类器。由于训练数据主要由基础类别构成,这种方法不可避免地偏向基础类别。在本工作中,我们提出了一种新颖的预测校准网络(PCN)来解决这一问题。不同于融合分类器参数的方法,我们融合了基础分类器和新分类器分别产生的分数。为了确保融合后的分数不会偏向基础类别或新类别,引入了一个基于Transformer的新校准模块。已知低级特征在检测输入图像边缘信息方面比高级特征更为有效。因此,我们构建了一个跨注意力模块,利用融合的多级特征指导分类器的最终预测。然而,Transformer计算成本较高。关键在于,为了使所提出的跨注意力模块在像素级别上的训练变得可行,该模块基于特征-分数交叉协方差设计,并以小批量方式训练以确保推理时的泛化能力。在PASCAL-$5^{i}$和COCO-$20^{i}$数据集上进行的大量实验表明,我们的PCN显著优于当前最先进的替代方案。