6ヶ月前

概要

視覚的質問応答（Visual Question Answering, VQA）タスクは画像に関する1つの質問に答えることを求められるのに対し、視覚対話（Visual Dialogue）タスクは、画像に含まれるさまざまなオブジェクト、関係性、意味情報をカバーする複数の質問に応答する必要がある。したがって、視覚対話タスクにおける主な課題は、質問の種類に応じて画像上で適応的な注目（attention）を発揮できる、より包括的かつ意味情報豊富な画像表現を学習することにある。本研究では、視覚的および意味的視点の両方から画像を描写する新しいモデルを提案する。具体的には、視覚的視点は、オブジェクトやそれらの関係性といった外観レベルの情報を捉えるのに対し、意味的視点は、画像全体から局所領域に至るまで、高レベルの視覚的意味を理解する能力をエージェントに与える。さらに、このような多視点画像特徴の上に、質問に関連する情報を細粒度レベルで階層的に適応的に捉えることができる特徴選択フレームワークを提案する。提案手法は、標準的な視覚対話データセットにおいて最先端の性能を達成した。さらに、ゲート値の可視化により、現在の質問に対する回答において、視覚的モダリティか意味的モダリティのどちらがより大きな貢献をしているかを明らかにできる。これにより、視覚対話における人間の認知プロセスに関する新たな知見が得られる。

ソースPDF