2ヶ月前
MUTAN: 複数モーダルのテンソル融合による視覚的な質問応答
Hedi Ben-younes; Rémi Cadene; Matthieu Cord; Nicolas Thome

要約
双線形モデルは、視覚質問応答(Visual Question Answering: VQA)タスクにおいて情報の混在と統合に魅力的な枠組みを提供します。これらのモデルは、質問の意味と画像内の視覚的概念との間の高次関連性を学習するのに役立ちますが、巨大な次元性の問題に悩まされています。本研究では、MUTAN(Multimodal Tucker Decomposition Network)を提案します。これは、視覚表現とテキスト表現の間の双線形相互作用を効率的にパラメータ化するための多峰テンソルベースのテッカー分解手法です。さらに、テッカー枠組みに加えて、低ランク行列に基づく分解手法を設計し、相互作用のランクを明示的に制約しています。MUTANにより、融合スキーマの複雑さを制御しつつ、解釈可能な融合関係を維持することができます。また、我々はMUTANモデルが最新のVQAアーキテクチャの中でも一般的であることを示し、最先端の結果を提供することを確認しました。