
摘要
多模态对话情感识别(MERC)任务旨在基于对话中的多模态信息分析每个话语的真实情感状态,这对于对话理解至关重要。现有的方法主要集中在使用图神经网络(GNN)建模对话关系并捕捉上下文潜在的语义关系。然而,由于GNN的复杂性,现有方法无法高效地捕捉远距离话语之间的潜在依赖关系,这限制了MERC的性能。在本文中,我们提出了一种高效的远距离潜在关系感知图神经网络(ELR-GNN),用于多模态对话情感识别。具体而言,我们首先使用预提取的文本、视频和音频特征作为Bi-LSTM的输入来捕捉上下文语义信息并获得低级话语特征。然后,我们利用这些低级话语特征构建一个对话情感交互图。为了高效地捕捉远距离话语之间的潜在依赖关系,我们使用扩展广义前向推送算法预先计算全局话语之间的情感传播,并设计了一个情感关系感知算子来捕捉不同话语之间的潜在语义关联。此外,我们将早期融合和自适应后期融合机制相结合,以融合说话者关系信息和上下文之间的潜在依赖信息。最后,我们获得了高级篇章特征,并将其输入到MLP中进行情感预测。广泛的实验结果表明,ELR-GNN在基准数据集IEMOCAP和MELD上实现了最先进的性能,并且运行时间分别减少了52%和35%。