
摘要
如CLIP等视觉-语言模型在将文本与图像编码为对齐的嵌入表示方面展现出卓越能力,使得在共享嵌入空间中实现多模态数据的检索成为可能。然而,这些基于嵌入的方法在有效匹配具有相似视觉-语言结构性的图像与文本方面仍面临挑战,这一局限性在近期推出的Winoground数据集上的表现中得到了充分证实。本文认为,这一问题主要源于两个因素:一是对复杂多模态数据采用单一向量表示,二是现有嵌入方法缺乏逐步推理机制。为应对这一挑战,我们提出一种探索性方法,采用一种新颖的生成式策略,引导大型视觉-语言模型(如GPT-4)对图像进行描述并执行组合性推理。实验结果表明,该方法在Winoground数据集上的表现优于其他基于嵌入的方法,且在采用最优描述进行增强后,准确率进一步提升达10%。