11 天前

MVP-SEG:面向开放词汇语义分割的多视角提示学习

Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Baochang Zhang
MVP-SEG:面向开放词汇语义分割的多视角提示学习
摘要

CLIP(对比语言-图像预训练)在开放词汇表零样本图像级识别任务中已得到充分发展,然而其在像素级任务中的应用仍鲜有深入研究,多数方法直接采用CLIP特征而未进行针对性的适应性调整。本文首先论证了图像-像素级CLIP特征适应的必要性,随后提出多视角提示学习(Multi-View Prompt learning, MVP-SEG)作为一种有效方案,实现图像像素级特征适配,并解决开放词汇语义分割问题。具体而言,MVP-SEG通过我们提出的正交约束损失(Orthogonal Constraint Loss, OCLoss)精心学习多个提示(prompts),使得每个提示被监督以在CLIP特征中挖掘不同物体部位的信息,而所有提示协同生成的分割掩码进一步提升了整体分割性能。此外,MVP-SEG引入全局提示精炼机制(Global Prompt Refining, GPR),以进一步消除类别级别的分割噪声。实验结果表明,从已见类别中学得的多视角提示具有强大的泛化能力,能够有效迁移到未见类别;MVP-SEG+通过引入知识迁移阶段,在多个基准测试上显著优于先前方法。此外,定性分析也验证了MVP-SEG能够更精准地聚焦于不同局部区域,提升分割的细节表现。

MVP-SEG:面向开放词汇语义分割的多视角提示学习 | 最新论文 | HyperAI超神经