
摘要
对话中的情感识别(Emotion Recognition in Conversation, ERC)是情感对话系统中的关键组成部分,有助于系统理解用户的情感状态并生成具有同理心的回应。然而,现有大多数研究主要聚焦于仅基于文本模态建模说话人信息与上下文信息,或简单地通过特征拼接方式融合多模态信息。为探索更高效地利用多模态信息与长距离上下文信息的途径,本文提出一种基于多模态融合图卷积网络的新模型——MMGCN(Multimodal Fused Graph Convolutional Network)。该模型不仅能有效捕捉多模态之间的依赖关系,还能利用说话人信息建模说话人之间的跨说话人依赖关系以及说话人内部的自依赖关系。我们在两个公开基准数据集IEMOCAP和MELD上对所提模型进行了评估,实验结果验证了MMGCN的有效性,在多模态对话场景下显著优于其他当前最优(SOTA)方法。