6 个月前

摘要

CLIP（对比语言-图像预训练）在开放词汇表零样本图像级识别任务中已得到充分发展，然而其在像素级任务中的应用仍鲜有深入研究，多数方法直接采用CLIP特征而未进行针对性的适应性调整。本文首先论证了图像-像素级CLIP特征适应的必要性，随后提出多视角提示学习（Multi-View Prompt learning, MVP-SEG）作为一种有效方案，实现图像像素级特征适配，并解决开放词汇语义分割问题。具体而言，MVP-SEG通过我们提出的正交约束损失（Orthogonal Constraint Loss, OCLoss）精心学习多个提示（prompts），使得每个提示被监督以在CLIP特征中挖掘不同物体部位的信息，而所有提示协同生成的分割掩码进一步提升了整体分割性能。此外，MVP-SEG引入全局提示精炼机制（Global Prompt Refining, GPR），以进一步消除类别级别的分割噪声。实验结果表明，从已见类别中学得的多视角提示具有强大的泛化能力，能够有效迁移到未见类别；MVP-SEG+通过引入知识迁移阶段，在多个基准测试上显著优于先前方法。此外，定性分析也验证了MVP-SEG能够更精准地聚焦于不同局部区域，提升分割的细节表现。

源 PDF