4 个月前

Kahou Samira Ebrahimi Michalski Vincent Atkinson Adam Kadar Akos Trischler Adam

摘要

我们提出了FigureQA，这是一个包含超过一百万个问答对的视觉推理语料库，其内容基于超过十万张图像。这些图像为合成的、具有科学风格的图表，涵盖五类：折线图、点线图、竖直与水平条形图以及饼图。我们通过15种问题模板生成问题，构建了视觉推理任务。这些问题涉及图表中各元素之间的多种关系，考察诸如最大值、最小值、曲线下面积、平滑性以及交点等特征。解答此类问题通常需要参考多个图表元素，并综合分析分布在图表各处的信息。为便于机器学习系统的训练，该语料库还包含可用于构建辅助目标的附加数据，包括生成每张图表所用的原始数值数据，以及所有图表元素的边界框标注。我们通过训练多种模型（包括近期提出的关联网络作为强基线模型）对所提出的视觉推理任务进行了研究。初步结果表明，该任务对机器学习模型构成了显著挑战。我们期望FigureQA能够成为迈向开发能够直观从数据可视化中识别模式的智能模型的第一步。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

Kahou Samira Ebrahimi Michalski Vincent Atkinson Adam Kadar Akos Trischler Adam

摘要

我们提出了FigureQA，这是一个包含超过一百万个问答对的视觉推理语料库，其内容基于超过十万张图像。这些图像为合成的、具有科学风格的图表，涵盖五类：折线图、点线图、竖直与水平条形图以及饼图。我们通过15种问题模板生成问题，构建了视觉推理任务。这些问题涉及图表中各元素之间的多种关系，考察诸如最大值、最小值、曲线下面积、平滑性以及交点等特征。解答此类问题通常需要参考多个图表元素，并综合分析分布在图表各处的信息。为便于机器学习系统的训练，该语料库还包含可用于构建辅助目标的附加数据，包括生成每张图表所用的原始数值数据，以及所有图表元素的边界框标注。我们通过训练多种模型（包括近期提出的关联网络作为强基线模型）对所提出的视觉推理任务进行了研究。初步结果表明，该任务对机器学习模型构成了显著挑战。我们期望FigureQA能够成为迈向开发能够直观从数据可视化中识别模式的智能模型的第一步。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供