マルチモーダルかつマルチタスクな密集画像予測のためのチャネル交換ネットワーク

マルチモーダル融合とマルチタスク学習は、機械学習分野における2つの重要なテーマである。これまでに著しい進展が見られたものの、両者の現存する手法は依然として同じ課題に脆く、各モダリティ(またはタスク)に固有のパターンを保持しつつ、モダリティ間(またはタスク間)で共有される情報を統合するというジレンマが残っている。さらに、これら2つの問題は実際には密接に関連しているにもかかわらず、それらを同一の手法的枠組み内で統合的に扱った研究はこれまでほとんど行われてこなかった。本論文では、自己適応性を持ち、パラメータフリーであり、特にマルチモーダルおよびマルチタスクの密な画像予測に適用可能な「チャネル交換ネットワーク(Channel-Exchanging-Network, CEN)」を提案する。CENの核となる仕組みは、異なるモダリティのサブネットワーク間でチャネルを適応的に交換することである。具体的には、訓練中にバッチ正規化(Batch Normalization, BN)のスケーリング係数の大きさによって測定される各チャネルの重要度に基づき、チャネル交換プロセスが自己誘導される。密な画像予測への応用において、CENの有効性は以下の4つの異なるシナリオを用いて検証された:マルチモーダル融合、サイクルマルチモーダル融合、マルチタスク学習、およびマルチモーダルマルチタスク学習。RGB-Dデータを用いたセマンティックセグメンテーションおよび複数ドメイン入力による画像変換という実験において、最先端手法と比較してCENの有効性が広範に裏付けられた。さらに、各提案構成要素の優位性を示す詳細なアブレーションスタディも実施された。本研究のコードは、https://github.com/yikaiw/CEN にて公開されている。