11 天前
SIGN:融合空间信息的生成式网络用于泛化零样本语义分割
Jiaxin Cheng, Soumyaroop Nandi, Prem Natarajan, Wael Abd-Almageed
摘要
与传统的零样本分类不同,零样本语义分割在像素级别而非图像级别预测类别标签。在解决零样本语义分割问题时,由于需要基于周围上下文进行像素级预测,我们提出引入位置编码以融入空间信息。为此,我们改进了标准的位置编码方法,提出相对位置编码(Relative Positional Encoding)的概念,该方法在特征层面整合空间信息,能够处理任意尺寸的图像。此外,尽管自训练(self-training)在零样本语义分割中被广泛用于生成伪标签,我们提出一种受知识蒸馏启发的新型自训练策略——退火自训练(Annealed Self-Training),该方法可自动为不同伪标签分配不同的重要性权重,从而提升模型性能。我们在三个基准数据集上对所提出的相对位置编码与退火自训练方法进行了系统性的实验评估,实证结果充分验证了该方法的有效性。