2 个月前

面向开放词汇的协作视觉-文本表示优化

Siyu Jiao; Hongguang Zhu; Jiannan Huang; Yao Zhao; Yunchao Wei; Humphrey Shi

摘要

预训练的视觉-语言模型（如CLIP）已被越来越多地用于解决具有挑战性的开放词汇分割（OVS）任务，得益于其对齐良好的视觉-文本嵌入空间。典型的解决方案包括在训练过程中冻结CLIP以单方面保持其零样本能力，或者微调CLIP的视觉编码器以实现对局部区域的感知敏感性。然而，很少有方法涉及视觉-文本协同优化。基于此，我们提出了一种内容依赖传输方法，通过与输入图像进行交互来自适应地增强每个文本嵌入，从而提供了一种参数高效的文本表示优化方式。此外，我们还引入了一种表示补偿策略，将原始的CLIP-V表示作为补偿以维持CLIP的零样本能力。通过这种方式，CLIP的视觉和文本表示得到了协同优化，增强了视觉-文本特征空间的对齐性。据我们所知，这是首次在OVS领域内建立视觉-文本协同优化机制。广泛的实验表明，我们的方法在流行的OVS基准测试中表现出色。在开放词汇语义分割任务中，我们的方法分别在A-847、A-150、PC-459、PC-59和PAS-20数据集上超越了先前的最佳方法，mIoU指标分别提高了+0.5、+2.3、+3.4、+0.4和+1.1。此外，在ADE20K数据集的全景设置下，我们实现了27.1 PQ、73.5 SQ和32.9 RQ的性能。代码将在https://github.com/jiaosiyu1999/MAFT-Plus.git 提供。