11 天前

MM-DFN:面向对话情感识别的多模态动态融合网络

Dou Hu, Xiaolong Hou, Lingwei Wei, Lianxin Jiang, Yang Mo
MM-DFN:面向对话情感识别的多模态动态融合网络
摘要

对话中的情感识别(Emotion Recognition in Conversations, ERC)在构建共情机器方面具有广阔的应用前景。对于多模态ERC而言,深入理解对话上下文并有效融合多模态信息至关重要。近年来,基于图结构的融合方法通常通过探索图中单模态与跨模态之间的交互关系来聚合多模态信息。然而,这类方法在每一层中容易累积冗余信息,限制了模态间上下文理解的深度与准确性。为此,本文提出一种新颖的多模态动态融合网络(Multimodal Dynamic Fusion Network, MM-DFN),旨在通过充分理解多模态对话上下文实现更精准的情感识别。具体而言,我们设计了一种基于图结构的动态融合模块,用于在对话中融合多模态上下文特征。该模块通过捕捉不同语义空间中上下文信息的动态变化,有效降低模态间的冗余性,增强模态间的互补性。在两个公开基准数据集上的大量实验结果表明,MM-DFN在性能上显著优于现有方法,验证了其有效性与优越性。