
摘要
我们研究了根据自然语言短语对图像区域进行分割的问题,并在一项包含77,262张图像和345,486个短语-区域对应关系的新数据集上开展实验。该数据集基于Visual Genome数据集构建,利用其已有标注生成了一组具有挑战性的指代短语,并对这些短语所对应的图像区域进行了人工标注。我们数据集中的短语涵盖多个图像区域,描述了大量物体与非物体类别(stuff categories)及其属性,包括颜色、形状、组成部分,以及与其他图像实体之间的关系。实验结果表明,本数据集中概念的规模与多样性对现有最先进方法构成了显著挑战。为此,我们系统性地处理了这些概念的长尾分布问题,并提出了一种模块化方法,有效融合类别、属性与关系线索,其性能优于现有方法。