2ヶ月前

FVQA: 事実に基づく視覚的な質問応答

Peng Wang; Qi Wu; Chunhua Shen; Anton van den Hengel; Anthony Dick
FVQA: 事実に基づく視覚的な質問応答
要約

視覚質問応答(VQA)は、コンピュータビジョンと自然言語処理の両分野で多くの注目を集めています。これは、2つの重要な情報源の間の関係性に洞察を提供するからです。現在のデータセットやそれらに基づいて構築されたモデルは、質問と画像のみの直接的な分析によって回答可能な質問に焦点を当ててきました。外部情報なしで回答可能なこのような質問の集合体は興味深いものですが、非常に限定的です。例えば、常識や基本的な事実知識が必要な質問は含まれていません。本稿では、より深い推論を必要とするFVQAというVQAデータセットを紹介します。FVQAには、外部情報が必要な質問のみが含まれています。従来の視覚質問応答データセット(画像-質問-回答の三つ組を含む)を拡張し、追加の画像-質問-回答-支持事実のタプルを導入しました。支持事実は、<猫, 能力, 樹上への登攀>()のような構造的な三つ組として表現されます。我々はFVQAデータセットに対していくつかの基準モデルを評価し、支持事実に基づいて画像について推論できる新しいモデルについて説明します。

FVQA: 事実に基づく視覚的な質問応答 | 最新論文 | HyperAI超神経