
摘要
现有的语义分割模型严重依赖密集的像素级标注数据。为减轻标注负担,本文聚焦于一项具有挑战性的任务——零样本语义分割(zero-shot semantic segmentation),该任务旨在对从未见过的物体进行分割,且无需任何标注信息。该任务可通过利用语义词嵌入(semantic word embeddings)在类别间迁移知识来实现。本文提出一种新颖的上下文感知特征生成方法,名为CaGNet(Context-aware Feature Generation Network),用于零样本语义分割。具体而言,基于“像素级特征高度依赖其上下文信息”这一观察,我们在分割网络中引入了一个上下文模块,用于捕捉像素级的上下文信息,从而引导从语义词嵌入中生成更具多样性且上下文感知能力更强的特征。实验结果表明,所提方法在三个零样本语义分割基准数据集上均取得了当前最优性能。代码已开源,获取地址为:https://github.com/bcmi/CaGNet-Zero-Shot-Semantic-Segmentation。