2ヶ月前

視覚質問応答のための焦点視覚-テキスト注意

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann

要約

最近のニューラルネットワークに関する言語と視覚の研究は、単純な単一画像の視覚的な質問応答に成功裏に適用されてきました。しかし、個人写真などのマルチメディアコレクションにおける実生活の質問応答問題を解決するためには、連続する写真や動画の全体的なコレクションを見ることが必要です。大規模なコレクションから質問に答える際、自然な課題として答えを支持する断片を特定することが挙げられます。本論文では、視覚的な質問応答において視覚情報とテキストシーケンス情報（画像やテキストメタデータなど）が提示される場合の集団的推論を行う新しいニューラルネットワークであるFocal Visual-Text Attention network (FVTA)について説明します。FVTAは、エンドツーエンドのアプローチを導入し、階層的なプロセスを通じて順次データの中で焦点を当てるべきメディアや時間を動的に決定します。FVTAは質問への回答だけでなく、システムがその回答を得る根拠となる正当化も提供することができます。FVTAはMemexQAデータセットで最先端の性能を達成しており、MovieQAデータセットでも競争力のある結果を示しています。