2ヶ月前

MUREL: 複数モーダル関係推論による視覚的質問応答

Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome
MUREL: 複数モーダル関係推論による視覚的質問応答
要約

多モーダル注意ネットワークは、実際の画像を扱うビジュアルクエスチョンアswering(VQA)タスクにおいて現在最先端のモデルです。注意機構は質問に関連する視覚的な内容に焦点を当てることが可能ですが、この単純なメカニズムがVQAやその他の高次タスクに必要な複雑な推論機能をモデル化するには十分でないとの議論があります。本稿では、MuRelと呼ばれる多モーダル関係ネットワークを提案します。これは、実際の画像に対して推論を行うためのエンドツーエンド学習可能なネットワークです。我々の最初の貢献は、質問と画像領域間の相互作用を豊かなベクトル表現によって表し、領域間の関係をペアワイズ組み合わせによってモデル化する原子的な推論原始体であるMuRelセルの導入です。第二に、このセルを完全なMuRelネットワークに組み込みました。このネットワークは視覚的および質問間の相互作用を段階的に洗練し、単なる注意マップよりも詳細な可視化スキームを定義するために利用できます。我々は様々な削減研究を通じて本手法の妥当性を検証し、3つのデータセット(VQA 2.0, VQA-CP v2, TDIUC)において注意機構に基づく方法よりも優れていることを示しました。最終的なMuRelネットワークは、この挑戦的な文脈において最先端の結果と競合またはそれを上回っています。我々のコードは以下のURLから入手可能です: https://github.com/Cadene/murel.bootstrap.pytorch

MUREL: 複数モーダル関係推論による視覚的質問応答 | 最新論文 | HyperAI超神経