2 个月前
面向开放词汇的协作视觉-文本表示优化
Siyu Jiao; Hongguang Zhu; Jiannan Huang; Yao Zhao; Yunchao Wei; Humphrey Shi

摘要
预训练的视觉-语言模型(如CLIP)已被越来越多地用于解决具有挑战性的开放词汇分割(OVS)任务,得益于其对齐良好的视觉-文本嵌入空间。典型的解决方案包括在训练过程中冻结CLIP以单方面保持其零样本能力,或者微调CLIP的视觉编码器以实现对局部区域的感知敏感性。然而,很少有方法涉及视觉-文本协同优化。基于此,我们提出了一种内容依赖传输方法,通过与输入图像进行交互来自适应地增强每个文本嵌入,从而提供了一种参数高效的文本表示优化方式。此外,我们还引入了一种表示补偿策略,将原始的CLIP-V表示作为补偿以维持CLIP的零样本能力。通过这种方式,CLIP的视觉和文本表示得到了协同优化,增强了视觉-文本特征空间的对齐性。据我们所知,这是首次在OVS领域内建立视觉-文本协同优化机制。广泛的实验表明,我们的方法在流行的OVS基准测试中表现出色。在开放词汇语义分割任务中,我们的方法分别在A-847、A-150、PC-459、PC-59和PAS-20数据集上超越了先前的最佳方法,mIoU指标分别提高了+0.5、+2.3、+3.4、+0.4和+1.1。此外,在ADE20K数据集的全景设置下,我们实现了27.1 PQ、73.5 SQ和32.9 RQ的性能。代码将在https://github.com/jiaosiyu1999/MAFT-Plus.git 提供。