2 个月前

谁是沃尔多?文本和图像中的人物关联

Claire Yuqing Cui; Apoorv Khandelwal; Yoav Artzi; Noah Snavely; Hadar Averbuch-Elor
谁是沃尔多?文本和图像中的人物关联
摘要

我们提出了一项人物中心的视觉定位任务及其基准数据集,旨在解决将图像说明中提到的人物与图像中展示的人物进行关联的问题。与以往主要基于对象的视觉定位研究不同,我们的新任务在图像说明中隐藏了人物的名字,以促使在此类图像-说明对上训练的方法更多关注上下文线索(如多人之间的丰富互动),而不是学习名字与外貌之间的关联。为了促进这一任务的研究,我们引入了一个名为“Who's Waldo”的新数据集,该数据集是从维基媒体公共库中的图像-说明数据自动挖掘而来的。我们提出了一种基于Transformer的方法,在这项任务上优于多个强大的基线模型,并将我们的数据集向研究社区开放,以推动考虑视觉和语言双重因素的上下文模型的发展。

谁是沃尔多?文本和图像中的人物关联 | 最新论文 | HyperAI超神经