2 个月前

基于预训练视觉-语言模型的开放词汇语义分割基线方法

Mengde Xu; Zheng Zhang; Fangyun Wei; Yutong Lin; Yue Cao; Han Hu; Xiang Bai

摘要

近日，通过视觉语言预训练实现的开放词汇图像分类展示了令人难以置信的成就，即模型可以在不看到该类别额外标注图像的情况下对任意类别进行分类。然而，如何使开放词汇识别在更广泛的视觉问题上表现良好仍不清楚。本文旨在通过构建一个基于现成预训练视觉语言模型（即CLIP）的方法来解决开放词汇语义分割问题。然而，语义分割和CLIP模型在不同的视觉粒度上运行，前者处理像素级信息，而后者则处理整幅图像。为了解决这一处理粒度上的差异，我们摒弃了流行的单阶段FCN框架，提出了一种两阶段语义分割框架：第一阶段提取可泛化的掩码提议，第二阶段利用基于图像的CLIP模型对第一阶段生成的掩码图像块进行开放词汇分类。实验结果表明，当仅在COCO Stuff数据集上训练并在其他数据集上评估时，该两阶段框架的表现优于FCN。此外，这一简单的框架在零样本语义分割方面也大幅超越了以往的最先进方法：在Pascal VOC 2012数据集上提高了29.5个hIoU，在COCO Stuff数据集上提高了8.9个hIoU。鉴于其简单性和强大的性能，我们希望这一框架能够作为基线促进未来的研究。代码已公开发布于 \url{https://github.com/MendelXu/zsseg.baseline}。