2ヶ月前
データ可視化に関する質問への効率的なバイモーダル融合を用いた回答
Kafle, Kushal ; Shrestha, Robik ; Price, Brian ; Cohen, Scott ; Kanan, Christopher

要約
チャート質問応答(CQA)は、アルゴリズムが棒グラフ、円グラフ、折れ線グラフなどのデータ可視化に関する質問に答える新規のビジュアル質問応答(VQA)タスクです。CQAは、自然画像VQAアルゴリズムが欠いている能力を必要とします:微細な測定、光学的文字認識(OCR)、および質問と回答の両方における語彙外の単語の処理。現状の最先端VQAアルゴリズムは、このタスクに対して改良なしでは低性能となります。本稿では、画像と言語の並列再帰的融合(Parallel Recurrent Fusion of Image and Language: PReFIL)という新しいCQAアルゴリズムを提案します。PReFILはまず、質問と画像特徴を融合して双モーダル埋め込みを学習し、次にこれらの学習済み埋め込みを賢明に集約して与えられた質問に答えます。その単純さにもかかわらず、PReFILはFigureQAおよびDVQAデータセットにおいて既存の最先端システムや人間基準を大幅に上回ります。さらに、PReFILがチャートに関する一連の質問を通じてテーブルを再構築できることが示されています。