11 天前

FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割

Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li
FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割
摘要

全监督语义分割依赖于密集的掩码标注,这在封闭世界设定下需要高昂的标注成本。本文提出一种无需任何像素级标注、仅利用自然语言作为监督信号的开放世界语义分割方法。我们将其框架命名为FreeSeg,其核心思想是:从预训练模型的原始特征图中直接获取自由可用的掩码。与零样本或开放集分割方法相比,FreeSeg完全无需任何标注掩码,且能够广泛预测超出类别无关无监督分割范畴的语义类别。具体而言,FreeSeg通过可解释的对比语言-图像预训练(Interpretable Contrastive Language-Image Pretraining, ICLIP)所生成的图像-文本相似度图(Image-Text Similarity Map, ITSM)来获取免费掩码。本文的核心改进包括:针对密集ICLIP特征的平滑最小池化(smoothed min pooling),以及用于分割任务的局部标签(partial label)与像素级策略(pixel strategy)。此外,FreeSeg结构设计极为简洁,无需复杂的分组、聚类或检索机制。在保持极简设计的同时,FreeSeg在性能上显著超越此前的最先进方法。例如,在相同实验设置下,其在PASCAL VOC数据集上的mIoU指标提升高达13.4%。