
要約
マルチモーダル感情分析(MSA)において、モデルの性能は合成埋め込み(embeddings)の質に大きく依存する。これらの埋め込みは、入力の単モーダルな原始データを抽出・統合して、より豊かなマルチモーダル表現を生成することを目的とする「マルチモーダル融合」と呼ばれる上流プロセスから生成される。従来の手法は、タスク損失の逆伝播または特徴空間の幾何的性質の操作によって有利な融合結果を導こうとしてきたが、これにより入力から融合結果に伝わる重要なタスク関連情報の保持が無視されがちであった。本研究では、この問題に対処するため、マルチモーダル情報最大化(MultiModal InfoMax; MMIM)と名付けたフレームワークを提案する。本フレームワークは、モーダル間(inter-modality)の単モーダル入力ペア間における相互情報量(Mutual Information: MI)を階層的に最大化するとともに、マルチモーダル融合結果と単モーダル入力との間のMIも最大化することで、マルチモーダル融合プロセス全体を通じてタスク関連情報を保持することを目的としている。このフレームワークは、主タスク(MSA)と共同で学習されるため、下流のMSAタスクにおける性能向上が期待できる。また、MIの計算が困難な問題に対処するため、その真値を近似可能な計算的に簡便なパラメトリックおよびノンパラメトリック手法のセットを新たに定式化した。2つの広く用いられているデータセットにおける実験結果から、本手法の有効性が実証された。本研究の実装コードは、GitHubにて公開されており、https://github.com/declare-lab/Multimodal-Infomax から入手可能である。