19日前

非対称マルチレイヤ融合を用いた深層マルチモーダル特徴表現の学習

Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao
非対称マルチレイヤ融合を用いた深層マルチモーダル特徴表現の学習
要約

我々は、単一のネットワーク内で複数の層にわたりマルチモーダル特徴を融合するコンパクトかつ効果的なフレームワークを提案する。このフレームワークは、2つの革新的な融合方式で構成されている。まず、従来のマルチモーダル手法が異なるモダリティごとに個別のエンコーダを必要としているのに対し、エンコーダ内にモダリティ固有のバッチ正規化層を維持するだけで、マルチモーダル特徴を共有された単一ネットワーク内で学習可能であることを検証した。これにより、共通の特徴表現学習を通じて暗黙的な融合が実現可能となる。第二に、マルチモーダル特徴を段階的に活用できる双方向的な多層融合方式を提案する。この方式を有効に活用するため、チャネルシャッフルとピクセルシフトの2種類の非対称融合演算を導入した。これらの演算は異なる融合方向に対して異なる融合特徴を学習可能であり、パラメータを必要としない一方で、チャネル間のマルチモーダル特徴相互作用を強化するとともに、チャネル内での空間的特徴の識別力を向上させる。本研究では、多様なモダリティをカバーする3つの公開データセットを用いて、セマンティックセグメンテーションおよび画像翻訳タスクにおいて広範な実験を実施した。実験結果から、提案フレームワークが汎用性に優れ、コンパクトであり、最先端の融合フレームワークを上回ることを示した。

非対称マルチレイヤ融合を用いた深層マルチモーダル特徴表現の学習 | 論文 | HyperAI超神経