HyperAIHyperAI

Command Palette

Search for a command to run...

FigureQA:視覚的推論のための注釈付き図表データセット

概要

本稿では、10万枚以上の画像を基に、100万件以上の質問・回答ペアを含む視覚的推論コーパス「FigureQA」を紹介する。これらの画像は、5つのカテゴリ(線グラフ、点線グラフ、縦棒グラフ・横棒グラフ、円グラフ)に分類される、合成された科学的スタイルの図表である。本研究では、15種類のテンプレートから質問を生成することで、推論タスクを定式化している。これらの質問は、図表内の要素間のさまざまな関係性に焦点を当てており、最大値・最小値、曲線下面積、滑らかさ、交差点といった特徴を検証する内容となっている。このような質問に回答するためには、図表内の複数の要素に注目し、図全体に分散された情報を統合する必要がある。機械学習システムの学習を促進するため、コーパスには補助的な目的関数を定式化するための付加データも含まれている。特に、各図表の生成に使用された数値データと、すべての図表要素に対するバウンディングボックスのアノテーションを提供している。本研究では、最近提案された関係ネットワーク(Relation Network)を強力なベースラインとして用い、複数のモデルを訓練することで、提示された視覚的推論タスクの特性を検討した。初期の結果から、このタスクは機械学習において大きな課題であることが示唆されている。FigureQAは、データの視覚的表現からパターンを直感的に認識できるモデルの開発への第一歩であると考えている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています