
要約
深層マルチモーダル学習において、効果的なニューラルネットワークの設計は根本的に重要である。従来の多くは単一のタスクに焦点を当て、手動でニューラルアーキテクチャを設計しており、タスクに特化しすぎて異なるタスクへの一般化が困難である。本論文では、さまざまなマルチモーダル学習タスクに対応可能な汎用的な深層マルチモーダルニューラルアーキテクチャ探索(MMnas)フレームワークを提案する。マルチモーダル入力を前提に、まず基本的な演算(primitive operations)の集合を定義し、その後、深層エンコーダ-デコーダ構造に基づく統一されたバックボーンを構築する。このバックボーンにおいて、各エンコーダまたはデコーダブロックは、事前に定義された演算プールから探索された演算に対応する。この統一されたバックボーンの上に、タスクに応じたヘッドを接続することで、異なるマルチモーダル学習タスクに対応する。勾配ベースのNAS(Neural Architecture Search)アルゴリズムを用いることで、異なるタスクに最適なアーキテクチャを効率的に学習することができる。広範なアブレーションスタディ、包括的な分析および比較実験の結果から、提案手法により得られたMMnasNetは、視覚質問応答(VQA)、画像-テキストマッチング、視覚的接地(visual grounding)の3つのマルチモーダル学習タスク(5つのデータセットを用いて)において、既存の最先端手法を大きく上回ることが明らかになった。