
摘要
零样本语义分割(Zero-shot Semantic Segmentation, ZS3)旨在对训练阶段未见过的新类别进行分割。现有方法将ZS3建模为像素级的零样本分类问题,借助仅通过文本预训练的语言模型,将已见类别的语义知识迁移到未见类别。尽管该方法实现简单,但其在整合通常基于图像-文本对预训练、并在视觉任务中展现出巨大潜力的视觉-语言模型方面能力有限。受人类常以“语义段”为单位进行标注这一现象的启发,我们提出将ZS3解耦为两个子任务:(1)类别无关的分组任务,用于将像素聚类为语义段;(2)在语义段层面进行零样本分类。前者不依赖类别信息,可直接迁移至未见类别以实现像素分组;后者在段级别执行,为利用大规模图像-文本对预训练的视觉-语言模型(如CLIP)提供了自然且高效的途径,从而更好地融合视觉与语言先验知识。基于这一解耦范式,我们提出了一种简单而高效的零样本语义分割模型——ZegFormer。在标准ZS3基准测试中,该模型显著优于此前方法,例如在PASCAL VOC数据集上未见类别的mIoU提升达22个百分点,在COCO-Stuff数据集上提升3个百分点。代码将开源发布于:https://github.com/dingjiansw101/ZegFormer。