11日前
MM-DFN:会話における感情認識のためのマルチモーダル動的融合ネットワーク
Dou Hu, Xiaolong Hou, Lingwei Wei, Lianxin Jiang, Yang Mo

要約
会話中の感情認識(Emotion Recognition in Conversations, ERC)は、共感を持つ機械の開発において大きな可能性を秘めている。マルチモーダルERCにおいては、会話の文脈を理解し、複数モダリティの情報を適切に統合することが不可欠である。近年のグラフベースの統合手法は、グラフ構造を用いて単モダリティ間およびクロスモダリティ間の相互作用を探索することで、マルチモーダル情報を集約している。しかし、これらの手法は各層で冗長な情報が蓄積されやすく、モダリティ間の文脈理解に限界がある。本論文では、マルチモーダル会話文脈を徹底的に理解することで感情認識を実現する新たな「マルチモーダル動的統合ネットワーク」(Multimodal Dynamic Fusion Network, MM-DFN)を提案する。具体的には、会話におけるマルチモーダル文脈特徴を動的に統合する新しいグラフベースのモジュールを設計した。このモジュールは、異なる意味空間における文脈情報の動的特性を捉えることで、モダリティ間の冗長性を低減し、補完性を強化する。2つの公開ベンチマークデータセットを用いた広範な実験により、MM-DFNの有効性および優位性が実証された。