16 天前
使用场景图将结构化表示融入预训练视觉与语言模型
Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson

摘要
视觉与语言模型(VLMs)在多种任务中已展现出卓越的零样本(Zero-Shot, ZS)性能。然而,近期研究表明,即便是表现最优的VLMs,在捕捉组合性场景理解的关键方面——如物体属性、物体间关系以及动作状态——仍存在明显不足。相比之下,获取结构化标注数据(如场景图,Scene Graphs, SGs)虽有助于提升模型对这些方面的理解,但其标注过程耗时且成本高昂,难以大规模应用。本文探讨了一个关键问题:是否可以通过少量场景图数据集,为预训练的VLMs提供足够的结构化信息以增强其组合性理解能力?我们证明,通过将结构化信息融入视觉与文本表征的组件,仅利用少量场景图数据即可有效提升VLMs的性能。在视觉侧,我们在图像Transformer中引入一个专门的“场景图组件”(SG Component),该组件经过训练以预测场景图中的结构化信息;在文本侧,我们利用场景图生成细粒度的描述文本,突出呈现场景中不同的组合性特征。实验结果表明,该方法在多个视觉-语言基准数据集上显著提升了多种主流VLMs的性能,同时仅带来轻微的零样本能力下降,验证了小规模场景图数据在增强模型结构化理解方面的高效性与可行性。