17 天前

通过局部化叙事连接视觉与语言

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari
通过局部化叙事连接视觉与语言
摘要

我们提出了一种名为“局部化叙述”(Localized Narratives)的新型多模态图像标注形式,旨在建立视觉与语言之间的紧密联系。我们要求标注者在用语音描述图像的同时,将鼠标悬停在所描述的图像区域上。由于语音与鼠标指针位置保持同步,我们能够对描述中的每一个词语进行精确的视觉定位。这种密集的视觉定位以每个词语对应的鼠标轨迹片段形式呈现,是本数据集的独特特征。我们使用该方法对849,000张图像进行了标注,涵盖完整的COCO、Flickr30k和ADE20K数据集,以及671,000张Open Images数据集中的图像,所有数据均对公众开放。我们对这些标注进行了全面分析,结果表明其具有多样性、准确性,并且标注效率较高。此外,我们还在可控图像字幕生成任务中验证了其实际应用价值。