4ヶ月前

概要

本稿では、10万枚以上の画像を基に、100万件以上の質問・回答ペアを含む視覚的推論コーパス「FigureQA」を紹介する。これらの画像は、5つのカテゴリ（線グラフ、点線グラフ、縦棒グラフ・横棒グラフ、円グラフ）に分類される、合成された科学的スタイルの図表である。本研究では、15種類のテンプレートから質問を生成することで、推論タスクを定式化している。これらの質問は、図表内の要素間のさまざまな関係性に焦点を当てており、最大値・最小値、曲線下面積、滑らかさ、交差点といった特徴を検証する内容となっている。このような質問に回答するためには、図表内の複数の要素に注目し、図全体に分散された情報を統合する必要がある。機械学習システムの学習を促進するため、コーパスには補助的な目的関数を定式化するための付加データも含まれている。特に、各図表の生成に使用された数値データと、すべての図表要素に対するバウンディングボックスのアノテーションを提供している。本研究では、最近提案された関係ネットワーク（Relation Network）を強力なベースラインとして用い、複数のモデルを訓練することで、提示された視覚的推論タスクの特性を検討した。初期の結果から、このタスクは機械学習において大きな課題であることが示唆されている。FigureQAは、データの視覚的表現からパターンを直感的に認識できるモデルの開発への第一歩であると考えている。

ソースPDF