2ヶ月前
BLOCK: 双線形超対角融合を用いた視覚質問応答と視覚関係検出
Hedi Ben-younes; Rémi Cadene; Nicolas Thome; Matthieu Cord

要約
多モーダル表現学習は、深層学習コミュニティにおいてますます注目を集めています。双線形モデルは、モーダル間の微妙な組み合わせを見つけるための興味深い枠組みを提供しますが、そのパラメータ数は入力次元と共に二次的に増加し、従来の深層学習パイプラインでの実装が困難となることがあります。本論文では、ブロック-スーパーダイアゴナルテンソル分解に基づく新しい多モーダル融合手法BLOCKを提案します。この手法は、テンソルで既に使用されているランクとモードランクの概念を一般化したブロック項ランク(block-term ranks)の概念を利用します。これにより、融合モデルの表現力と複雑さのトレードオフを最適化する新しい方法を定義でき、非常に微細なモーダル間相互作用を表現しつつ強力な単一モーダル表現を維持することが可能となります。我々は、BLOCKを使用して2つの課題である視覚質問応答(Visual Question Answering, VQA)と視覚関係検出(Visual Relationship Detection, VRD)における融合モデルの実用的な利点を示します。これらの課題に対して、モーダル間の関連性のある相互作用を表すエンドツーエンド学習可能なアーキテクチャを設計しました。広範な実験を通じて、BLOCKがVQAおよびVRDタスクにおいて最先端の多モーダル融合モデルと比較して優れていることを示しています。我々のコードは以下のURLから入手可能です: https://github.com/Cadene/block.bootstrap.pytorch.