Command Palette
Search for a command to run...
重新审视视觉-语言模型中语言先验的作用
重新审视视觉-语言模型中语言先验的作用
Zhiqiu Lin Xinyue Chen Deepak Pathak Pengchuan Zhang Deva Ramanan
摘要
视觉-语言模型(VLMs)之所以具有重要影响,部分原因在于它们能够以零样本(zero-shot)方式应用于多种视觉理解任务,而无需任何微调。本文研究了生成式视觉-语言模型(generative VLMs),这类模型在给定图像的情况下被训练用于生成下一个词。我们评估了它们在8个主流视觉-语言基准上执行图像-文本检索这一典型任务时的零样本性能。我们的首个发现是:通过简单计算在给定图像条件下生成某一特定文本串的匹配得分,这些生成式模型可被重新用于判别性任务(如图像-文本检索)。我们将这一基于概率的得分称为视觉生成预训练得分(Visual Generative Pre-Training Score,简称 VisualGPTScore)。尽管 VisualGPTScore 在部分检索基准上可达到接近完美的准确率,但在其他基准上表现却较差。我们从概率建模的角度分析了这一现象,指出某些基准由于构造了对抗性但语言上极不自然的文本描述,无意中引入了非自然的语言分布。事实上,我们证明了一个“盲视”语言模型——即完全忽略图像信息的模型——有时甚至能超越所有先前的方法,这一现象令人联想到多年前视觉问答(VQA)领域所面临的类似挑战。为此,我们提出了一种概率后处理方法,在测试阶段无需重新训练或微调模型,即可控制生成式VLM中语言偏差的程度。实验表明,当 VisualGPTScore 经过适当的去偏处理后,其可成为视觉-语言理解任务中一个强大且极具竞争力的零样本基线,往往能实现当前最优的准确率。