2 个月前
IconQA:抽象图表理解与视觉语言推理的新基准
Pan Lu; Liang Qiu; Jiaqi Chen; Tony Xia; Yizhou Zhao; Wei Zhang; Zhou Yu; Xiaodan Liang; Song-Chun Zhu

摘要
当前的视觉问答(VQA)任务主要集中在回答针对自然图像的人类标注问题。然而,除了自然图像之外,具有丰富语义的抽象图表在视觉理解和推理研究中仍较少受到关注。在这项工作中,我们引入了一种新的挑战——图标问答(IconQA),其目标是在图标图像的上下文中回答问题。我们发布了IconQA数据集,该数据集包含107,439个问题和三个子任务:多图选择、多文本选择和填空题。IconQA数据集灵感来源于现实世界的图表文字题,强调了抽象图表理解和综合认知推理的重要性。因此,IconQA不仅需要物体识别和文本理解等感知技能,还需要多种认知推理技能,如几何推理、常识推理和算术推理。为了促进潜在的IconQA模型学习图标图像的语义表示,我们进一步发布了包含645,687个彩色图标、涵盖377个类别的图标数据集Icon645。我们进行了广泛的用户研究和盲实验,并重现了一系列先进的VQA方法以对IconQA任务进行基准测试。此外,我们开发了一个强大的IconQA基线模型Patch-TRM,该模型应用了一个金字塔跨模态Transformer,并使用在图标数据集上预训练的输入图表嵌入。IconQA和Icon645数据集可在https://iconqa.github.io获取。