2 个月前

高质量掩模调优对开放词汇分割至关重要

Quan-Sheng Zeng; Yunheng Li; Daquan Zhou; Guanbin Li; Qibin Hou; Ming-Ming Cheng
高质量掩模调优对开放词汇分割至关重要
摘要

通过掩码生成器与视觉-语言模型(如对比语言-图像预训练模型(CLIP))之间的协同作用,开放词汇图像分割技术得到了显著提升。以往的方法主要集中在生成掩码的同时,在训练过程中对齐掩码特征与文本嵌入。在本文中,我们观察到依赖低质量的生成掩码会削弱区域表示中视觉与语言的对齐效果。这促使我们提出了一种新的微调框架,命名为MaskCLIP++,该框架使用真实掩码而非生成掩码来增强CLIP的掩码分类能力。由于带有掩码注释的图像分割数据集多样性有限,我们建议在微调过程中引入一致性对齐原则,以减轻对微调数据集的类别偏差。经过低成本的微调后,MaskCLIP++在多域数据集上的掩码分类性能显著提高。结合先前基于掩码的最佳开放词汇分割方法中的掩码生成器,我们在A-847、PC-459、A-150、PC-59和PAS-20数据集上分别实现了+1.7、+2.3、+2.1、+3.1和+0.3的mIoU性能提升。代码可在https://github.com/HVision-NKU/MaskCLIPpp 获取。