18 天前
图像-文本-图空间中的粗粒度到细粒度对比学习以提升视觉-语言组合性
Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen

摘要
对比训练的视觉-语言模型在视觉与语言表征学习方面取得了显著进展,推动了多种下游多模态任务的最先进模型发展。然而,近期研究揭示了这类模型在对象、属性及关系的组合推理能力方面存在严重局限。场景图(scene graphs)作为一种有效手段,被广泛用于实现图像的组合性理解。场景图是图像的图结构语义表示,包含场景中的对象、其属性以及对象之间的相互关系。在本研究中,我们以文本解析出的场景图为图像场景图的代理,提出了一种图分解与增强框架,并设计了一种从粗到细的对比学习目标,实现不同复杂度句子与同一图像之间的对齐。此外,我们还提出了新颖的场景图空间负样本挖掘方法,以提升属性绑定与关系理解能力。通过大量实验验证,所提方法在多个近期提出的基准测试上显著提升了属性绑定、关系理解、系统性泛化能力以及生成能力(例如,系统性泛化性能相比强基线提升高达18%,关系理解能力提升16.5%),同时在各类通用多模态任务中实现了与CLIP相当或更优的性能。