
摘要
语义分割是计算机视觉领域中最基础的问题之一,而在此背景下进行像素级标注尤其耗费人力。因此,已有多种方法尝试降低标注成本,例如利用图像级标签或边界框进行学习。本文在此基础上更进一步,聚焦于语义分割中的零样本(zero-shot)与少样本(few-shot)学习这一具有挑战性的任务。我们将该任务定义为:在训练过程中,对于某一类别既无任何标注样本(即零标注语义分割),或仅有少量标注样本(即少标注语义分割)的情况下,仍需对图像中的每个像素分配正确标签。我们的目标是将先前见过类别的知识有效迁移到新类别上。为此,本文提出了一种语义投影网络(Semantic Projection Network, SPNet),该网络以端到端的方式将类别级别的语义信息融入任意设计用于语义分割的网络结构中,从而实现知识迁移。此外,我们在具有挑战性的 COCO-Stuff 和 PASCAL VOC12 数据集上构建了针对该任务的基准测试(benchmark)。实验结果表明,所提出的模型不仅能有效实现对新类别的分割,显著减轻密集标注的负担,还能在不遗忘已有知识的前提下适应新类别,实现了广义的零样本与少样本语义分割。