6 个月前

摘要

全监督语义分割依赖于密集的掩码标注，这在封闭世界设定下需要高昂的标注成本。本文提出一种无需任何像素级标注、仅利用自然语言作为监督信号的开放世界语义分割方法。我们将其框架命名为FreeSeg，其核心思想是：从预训练模型的原始特征图中直接获取自由可用的掩码。与零样本或开放集分割方法相比，FreeSeg完全无需任何标注掩码，且能够广泛预测超出类别无关无监督分割范畴的语义类别。具体而言，FreeSeg通过可解释的对比语言-图像预训练（Interpretable Contrastive Language-Image Pretraining, ICLIP）所生成的图像-文本相似度图（Image-Text Similarity Map, ITSM）来获取免费掩码。本文的核心改进包括：针对密集ICLIP特征的平滑最小池化（smoothed min pooling），以及用于分割任务的局部标签（partial label）与像素级策略（pixel strategy）。此外，FreeSeg结构设计极为简洁，无需复杂的分组、聚类或检索机制。在保持极简设计的同时，FreeSeg在性能上显著超越此前的最先进方法。例如，在相同实验设置下，其在PASCAL VOC数据集上的mIoU指标提升高达13.4%。

源 PDF