2ヶ月前
FigureQA: 可視的推論のための注釈付き図データセット
Kahou, Samira Ebrahimi ; Michalski, Vincent ; Atkinson, Adam ; Kadar, Akos ; Trischler, Adam ; Bengio, Yoshua

要約
私たちはFigureQAを紹介します。これは、10万枚以上の画像に基づく100万を超える質問-回答ペアから構成される視覚的推論コーパスです。これらの画像は、5つのクラス(折れ線グラフ、点線グラフ、縦横の棒グラフ、円グラフ)に属する合成の科学的なスタイルの図形です。我々は推論タスクを定式化するために、15のテンプレートから質問を生成しました。質問はプロット要素間の様々な関係について触れ、最大値、最小値、曲線下面積、なめらかさ、交点などの特性を検討します。このような質問を解決するには、しばしば複数のプロット要素への参照と、図全体に分散した情報を統合することが必要となります。機械学習システムの訓練を容易にするために、コーパスには補助的な目的を設定するために使用できるサイドデータも含まれています。特に、各図を生成するために使用された数値データやすべてのプロット要素に対するバウンディングボックス注釈を提供しています。我々は提案された視覚的推論タスクについて研究し、最近提唱されたリレーションネットワークなどを含むいくつかのモデルを訓練しました。初步的な結果は、このタスクが著しい機械学習上の挑戦であることを示しています。私たちはFigureQAをデータの視覚表現から直感的にパターンを認識できるモデルを開発するための一歩として位置付けています。