Command Palette
Search for a command to run...
多モーダルコンパクト双線形プーリングを用いた視覚的質問応答と視覚的根拠特定
多モーダルコンパクト双線形プーリングを用いた視覚的質問応答と視覚的根拠特定
Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1
概要
近年、大規模な言語や視覚データセットから学習されたベクトル表現を用いて文章情報や視覚情報をモデル化する手法が成功裏に研究されてきました。しかし、視覚的な質問応答などのタスクでは、これらのベクトル表現を相互に組み合わせる必要があります。多モーダルプーリングの手法には、要素ごとの積や和、および視覚的と文章的な表現の連結が含まれます。我々は、これらの方法よりも視覚的ベクトルと文章的ベクトルの外積の方が表現力が高いと仮説を立てています。ただし、外積は高次元性のために通常実現不可能であるため、代わりに多モーダルコンパクト双線形プーリング(Multimodal Compact Bilinear pooling: MCB)を利用することを提案します。これにより、効率的にかつ表現豊かに多モーダル特徴を組み合わせることができます。我々はMCBを視覚的な質問応答とグラウンド化タスクで広範囲に評価しました。一貫してMCBを使用しないアブレーションに対してMCBの利点を示しています。視覚的な質問応答については、空間特徴に対する注意予測と、注意された表現と質問表現の組み合わせのためにMCBを2回使用するアーキテクチャを提示します。このモデルはVisual7WデータセットとVQAチャレンジにおいて最先端の性能を超える結果を示しました。