6 个月前

摘要

我们提出一种语义分割方法，在零样本（zero-shot）设置下即可实现当前最先进的监督学习性能。该方法在各大主流语义分割数据集上均取得了与监督学习方法相当的结果，且无需在这些数据集上进行任何训练。其核心思想是将每个类别标签替换为描述该类别的简短段落所对应的向量嵌入（vector-valued embedding）。该方法具有高度的通用性与简洁性，能够融合来自不同领域、类别标签和语义各异的多个数据集。由此构建的包含超过200万张图像的合并语义分割数据集，使得训练出的模型在7个基准数据集上的表现达到当前最先进监督方法的水平，而这些基准数据集中的图像均未被用于训练。通过在标准语义分割数据集上进行微调，我们在NYUD-V2和PASCAL-Context数据集上分别实现了60%和65%的mIoU，显著超越了当前最先进的监督分割方法。基于语言嵌入之间的语义相似性，该方法甚至能够对未见过的类别标签进行分割。大量实验表明，该方法在未见图像领域和未见类别标签上均展现出强大的泛化能力，并在下游任务（如深度估计和实例分割）中实现了显著的性能提升。

源 PDF