
要約
本論文では、シーンの内容と質問の両方を構造化表現で改善することを目的とした視覚的質問応答(VQA)手法を提案します。VQAにおける主要な課題は、視覚領域とテキスト領域の両方にわたる統合的な推論が必要であることです。現在主流のCNN/LSTMベースのVQAアプローチは、シーンや質問の形式における構造を大部分無視する単一のベクトル表現に制限されており、効果的に複数のオブジェクトインスタンスのような単純な状況すら捉えることができません。また、LSTMsは質問を単語列として処理するため、言語構造の真の複雑さが反映されません。そこで、我々はシーンオブジェクトと質問単語に対してグラフを構築し、これらの表現における構造を利用する深層ニューラルネットワークを説明します。これはLSTMsによる逐次処理よりも大幅な利点があります。我々の手法の全体的な有効性は、「抽象シーン」選択肢ベンチマークにおいて精度が71.2%から74.4%へと、「バランス」取れたシーンペア(微細な違いがあり、同じ質問に対する答えが逆転する画像)において精度が34.7%から39.1%へと、現行最先端技術に対して有意な向上を示すことで実証されています。