17日前
視覚質問応答における粗いから細かい推論
Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen

要約
画像と質問の間の意味的ギャップを埋めることが、視覚的質問応答(Visual Question Answering, VQA)タスクの精度向上に向けた重要なステップである。しかし、既存の大多数のVQA手法は、回答を推論する際に注目メカニズムや視覚的関係に焦点を当てており、異なる意味レベルにおける特徴量の活用が十分に行われていない。本論文では、VQAタスクにおける視覚的特徴と意味的ヒントの間のギャップを埋めるための新しい推論フレームワークを提案する。本手法は、まず画像と質問から特徴量および述語(predicates)を抽出する。その後、これらの特徴量と述語を粗いレベルから細かいレベルへと段階的に効果的に共同学習する新しい推論フレームワークを提案する。3つの大規模VQAデータセットにおける包括的な実験結果から、本手法が他の最先端手法と比較して優れた精度を達成することが示された。さらに、本推論フレームワークは、深層ニューラルネットワークが回答を予測する際の意思決定プロセスを説明可能(explainable)な形で理解する手段を提供する点でも有効である。