会話型マルチモーダル感情認識におけるモダリティおよびコンテキストに関するデスンタングルとフェュージョンの再検討

対話状況下におけるマルチモーダル文脈において機械が人間の感情を理解できるようにするというテーマは、近年、注目を集める研究分野となっており、そのタスクは会話におけるマルチモーダル感情分析(Multimodal Emotion Recognition in Conversation: MM-ERC)として定義されている。MM-ERCは近年、一貫して注目を集め、より優れたタスク性能を達成するための多様な手法が提案されてきた。既存の多くは、MM-ERCを標準的なマルチモーダル分類問題として扱い、特徴量の分離と統合を通じて特徴の有用性を最大化している。しかし、MM-ERCの本質的特徴を再検討した結果、特徴のマルチモーダル性と会話的文脈化の両方を、特徴の分離と統合の段階で同時に適切にモデル化する必要があると考える。本研究では、上記の知見を徹底的に考慮することで、タスク性能のさらなる向上を目指す。一方で、特徴の分離段階において、対比学習(contrastive learning)を基盤として、モダリティ空間と発話空間の両方に特徴を分離する「二段階分離メカニズム(Dual-level Disentanglement Mechanism: DDM)」を提案する。他方、特徴統合段階では、マルチモーダル特徴の統合と文脈の統合をそれぞれ目的とする「貢献度認識型統合メカニズム(Contribution-aware Fusion Mechanism: CFM)」と「文脈再統合メカニズム(Context Refusion Mechanism: CRM)」を導入する。これらは、マルチモーダル特徴と文脈特徴の適切な統合を統合的に制御する。具体的には、CFMはマルチモーダル特徴の寄与度を動的に明示的に管理し、CRMは会話文脈の導入を柔軟に調整する。公開のMM-ERCデータセット2種類において、本システムは一貫して新たなSOTA(State-of-the-Art)性能を達成した。さらに、詳細な分析から、提案するすべてのメカニズムが、マルチモーダルおよび文脈特徴を適応的に活用することで、MM-ERCタスクの遂行を大きく支援していることが明らかになった。なお、本研究で提案する手法は、他の会話的マルチモーダルタスクに対しても広範な応用可能性を有している。