ChartQA 使用视觉和逻辑推理回答图表问题的基准数据集

日期

7 个月前

大小

860.58 MB

机构

发布地址

github.com

特色图像

数据集背景

图表在数据分析中非常受欢迎。在探索图表时,人们经常提出各种涉及多个逻辑和算术操作的复杂推理问题。他们在问题中通常还常常提到图表的视觉特征。然而,大多数现有数据集并未专注于此类复杂推理问题,因为它们的问题是基于模板的,答案来自固定的词汇。

数据集简介

在这项工作中,研究团队提出了一个大规模的基准——ChartQA,涵盖了 9.6K 个人工编写的问题,以及从人工编写的图表摘要生成的 23.1K 个问题。

Chart Question Answering system (ChartQA) 通过输入一张图表和一个自然语言问题来预测结果。与基于 text 的 QA 不同,ChartQA 中的图表包含视觉表示,读者的注意力可能更多在一些突出的特征,比如趋势、异常值等。该数据集包含了 real-world 图表和人工编写的 question-answer pairs 。

ChartQA 与先前的数据集有两方面不同:

question 类型:human-authored vs. template-based
chart 来源:real-world vs. generated using a tool

数据收集

Data Collection & Preparation

取自四个图表网站,包含不同的主题和多样的风格。网站中包含 underlying data table 的内容也能爬的都爬了。

数据标注

两种主要的标注方法:

使用 AMT(Amazon Mechanical Turk)收集人工编写的 QA 对。

人工标记组合问题(至少包含两种运算)和视觉问题。

从 Statista 的人工编写的 中生成 QA 对。

ChartQA.torrent

做种 1

下载中 0

已完成 36

总下载 68

  • ChartQA/
    • README.md
      2.29 KB
    • README.txt
      4.58 KB
      • data/
        • ChartQA Dataset.zip
          860.58 MB