
近年来,预训练视觉-语言模型在应对极具挑战性的零样本分割任务中得到了日益广泛的应用。典型的解决方案遵循“先生成掩码提议(mask proposals),再利用CLIP进行分类”的范式。为保持CLIP的零样本迁移能力,以往方法通常在训练过程中冻结CLIP的参数。然而,本文揭示了一个关键问题:CLIP对不同的掩码提议不敏感,对于同一图像的不同掩码提议,往往产生相似的预测结果。这种敏感性缺失导致在分类掩码提议时产生大量误报(false positives)。该问题的根源在于CLIP在训练过程中仅采用图像级监督信号。为缓解这一问题,本文提出一种简单而高效的方法——掩码感知微调(Mask-aware Fine-tuning, MAFT)。具体而言,我们设计了图像-提议CLIP编码器(Image-Proposals CLIP Encoder, IP-CLIP Encoder),可同时处理任意数量的图像与掩码提议。随后,我们引入掩码感知损失(mask-aware loss)与自蒸馏损失(self-distillation loss),用于微调IP-CLIP Encoder,从而在不牺牲CLIP原有迁移能力的前提下,使其对不同掩码提议具有更强的响应能力。通过该机制,模型能够有效学习到具有判别性的掩码感知表征,使真正正例(true positives)更加突出。值得注意的是,本方法可无缝集成至大多数现有方法中,且在微调过程中无需引入任何额外参数。我们在多个主流零样本分割基准上进行了大量实验。实验结果表明,引入MAFT后,当前最先进方法的性能获得显著提升:在COCO数据集上,未见类别mIoU提升至50.4%(+8.2%);在Pascal-VOC上达到81.8%(+3.2%);在ADE20K上达到8.7%(+4.3%)。相关代码已开源,地址为:https://github.com/jiaosiyu1999/MAFT.git。