2 个月前
FigureQA:用于视觉推理的注释图形数据集
Kahou, Samira Ebrahimi ; Michalski, Vincent ; Atkinson, Adam ; Kadar, Akos ; Trischler, Adam ; Bengio, Yoshua

摘要
我们介绍了FigureQA,这是一个包含超过一百万对问答的视觉推理语料库,其基础是超过十万张图像。这些图像是合成的、科学风格的图表,分为五类:折线图、点线图、垂直和水平条形图以及饼状图。我们通过从15个模板生成问题来定义我们的推理任务;这些问题涉及图表元素之间的各种关系,并考察诸如最大值、最小值、曲线下面积、平滑度和交集等特征。解答这些问题通常需要参考多个图表元素,并综合分布在图形中的空间信息。为了便于机器学习系统的训练,该语料库还包含了可用于制定辅助目标的侧数据。特别是,我们提供了生成每个图表所使用的数值数据以及所有图表元素的边界框注释。我们通过训练包括最近提出的关联网络在内的几种模型来研究所提出的视觉推理任务。初步结果表明,该任务对机器学习构成了显著挑战。我们设想FigureQA将是开发能够直观识别数据可视化表示中模式的模型的第一步。