HyperAIHyperAI

Command Palette

Search for a command to run...

图像-文本-图空间中的粗粒度到细粒度对比学习以提升视觉-语言组合性

Harman Singh Pengchuan Zhang Qifan Wang Mengjiao Wang Wenhan Xiong Jingfei Du Yu Chen

摘要

对比训练的视觉-语言模型在视觉与语言表征学习方面取得了显著进展,推动了多种下游多模态任务的最先进模型发展。然而,近期研究揭示了这类模型在对象、属性及关系的组合推理能力方面存在严重局限。场景图(scene graphs)作为一种有效手段,被广泛用于实现图像的组合性理解。场景图是图像的图结构语义表示,包含场景中的对象、其属性以及对象之间的相互关系。在本研究中,我们以文本解析出的场景图为图像场景图的代理,提出了一种图分解与增强框架,并设计了一种从粗到细的对比学习目标,实现不同复杂度句子与同一图像之间的对齐。此外,我们还提出了新颖的场景图空间负样本挖掘方法,以提升属性绑定与关系理解能力。通过大量实验验证,所提方法在多个近期提出的基准测试上显著提升了属性绑定、关系理解、系统性泛化能力以及生成能力(例如,系统性泛化性能相比强基线提升高达18%,关系理解能力提升16.5%),同时在各类通用多模态任务中实现了与CLIP相当或更优的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像-文本-图空间中的粗粒度到细粒度对比学习以提升视觉-语言组合性 | 论文 | HyperAI超神经