
摘要
视觉-语言预训练(Vision-Language Pre-Training, VLP)在对齐图像和文本对方面展示了令人鼓舞的能力,促进了多种跨模态学习任务的发展。然而,我们观察到VLP模型通常缺乏视觉定位能力,这对于许多下游任务(如视觉推理)至关重要。在这项工作中,我们提出了一种新的位置引导文本提示(Position-guided Text Prompt, PTP)范式,以增强通过VLP训练的跨模态模型的视觉定位能力。具体而言,在VLP阶段,PTP将图像划分为$N \times N$个块,并通过广泛使用的对象检测器识别每个块中的对象。然后,它通过鼓励模型预测给定块中的对象或回归给定对象所在的块,将视觉定位任务重新表述为填空问题,例如在PTP中填充“P”或“O”,形成句子“The block P has a O”。这种机制提高了VLP模型的视觉定位能力,从而帮助它们更好地处理各种下游任务。我们将PTP引入几个最先进的VLP框架后,发现在代表性跨模态学习模型架构和多个基准测试中均取得了显著且一致的改进。例如,在ViLT \cite{vilt}基线模型上,零样本Flickr30K检索任务的平均召回率@1提高了4.8;在SOTA BLIP \cite{blip}基线模型上,COCO图像描述任务的CIDEr分数提高了5.3。此外,PTP在性能上与基于对象检测器的方法相当,并且由于PTP在推理时丢弃了其对象检测器而后者无法做到这一点,因此PTP具有更快的推理速度。我们的代码和预训练权重将在\url{https://github.com/sail-sg/ptp}发布。