8日前
MMTM:CNN統合のためのマルチモーダル転送モジュール
Hamid Reza Vaezi Joze, Amirreza Shaban, Michael L. Iuzzolino, Kazuhito Koishida

要約
後期融合(late fusion)では、各モダリティが独立した単モダリティの畳み込みニューラルネットワーク(CNN)パスで処理され、最終的に各モダリティのスコアが統合される。その構成の単純さから、多くの最先端のマルチモーダルアプリケーションにおいても、後期融合は依然として主流のアプローチである。本論文では、畳み込みニューラルネットワーク内において複数モダリティの知識を活用するためのシンプルなニューラルネットワークモジュールを提案する。本研究で提案する単位は「マルチモーダル転送モジュール(Multimodal Transfer Module: MMTM)」と名付けられ、特徴量階層の異なるレベルに挿入可能であり、緩やかなモダリティ統合を実現する。MMTMは、 squeeze-and-excitation 操作を用いて、各CNNパス内のチャネルごとの特徴量を、複数モダリティの知識に基づいて再調整する。他の中間融合手法とは異なり、本モジュールは空間次元が異なる畳み込み層間での特徴モダリティ融合に適用可能である。さらに、本手法の利点として、単モダリティブランチ間への追加に際してネットワーク構造の変更を最小限に抑えられ、既存の事前学習済み重みを各ブランチに初期化することができる点が挙げられる。実験結果から、提案フレームワークが代表的なマルチモーダルネットワークの認識精度を向上させることを示した。また、動的手のジェスチャー認識、音声強調、RGB画像およびボディジョイントを用いた動作認識という多様なタスク領域をカバーする4つのデータセットにおいて、最先端または競争力のある性能を達成した。