2 个月前

Mask-Adapter:开放词汇分割中的关键在于掩码

Yongkang Li; Tianheng Cheng; Bin Feng; Wenyu Liu; Xinggang Wang
Mask-Adapter:开放词汇分割中的关键在于掩码
摘要

近期的开放词汇分割方法采用了掩码生成器来预测分割掩码,并利用预训练的视觉-语言模型(如CLIP)通过掩码池化对这些掩码进行分类。尽管这些方法展示了有希望的结果,但令人费解的是,精确的掩码往往无法通过在掩码区域内池化CLIP图像嵌入来获得准确的分类结果。本文揭示了掩码池化的性能限制,并引入了一种简单而有效的方法——Mask-Adapter,以应对开放词汇分割中的这些挑战。与直接使用建议掩码相比,我们提出的Mask-Adapter从建议掩码中提取语义激活图,提供更丰富的上下文信息,并确保掩码与CLIP之间的对齐。此外,我们提出了一种掩码一致性损失,该损失鼓励具有相似交并比(IoU)的建议掩码获得相似的CLIP嵌入,从而增强模型对不同预测掩码的鲁棒性。Mask-Adapter可以无缝集成到基于掩码池化的开放词汇分割方法中,以即插即用的方式提供更准确的分类结果。广泛的实验表明,在多个零样本基准测试中,所提出的Mask-Adapter显著提升了几种已建立方法的性能。值得注意的是,Mask-Adapter还有效地扩展到了SAM,并在几个开放词汇分割数据集上取得了令人印象深刻的结果。代码和模型可在https://github.com/hustvl/MaskAdapter 获取。

Mask-Adapter:开放词汇分割中的关键在于掩码 | 最新论文 | HyperAI超神经