11 天前
M2FNet:对话情感识别的多模态融合网络
Vishal Chudasama, Purbayan Kar, Ashish Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Naoyuki Onoe

摘要
对话中的情绪识别(Emotion Recognition in Conversations, ERC)在构建富有同理心的人机交互系统中具有重要意义。在对话视频中,情绪信息可同时存在于多种模态中,包括音频、视频和文本(转录内容)。然而,由于各模态固有的特性,多模态ERC始终是一项极具挑战性的任务。现有的ERC研究主要依赖对话中的文本信息,忽视了音频与视觉模态的潜在价值。我们推测,通过引入多模态融合策略,有望显著提升情绪识别的准确率。为此,本文提出一种多模态融合网络(Multi-modal Fusion Network, M2FNet),该网络能够从视觉、音频和文本三种模态中提取与情绪相关的关键特征,并采用基于多头注意力机制的融合方法,整合输入数据中富含情绪信息的潜在表示。为更有效地挖掘音频与视觉模态中的情绪特征,我们设计了一种新型特征提取器,并结合一种新颖的自适应边界三元组损失函数(adaptive margin-based triplet loss)对其进行训练,以学习更具判别性的音频与视觉情绪特征。在ERC领域,现有方法通常在某一基准数据集上表现优异,但在其他数据集上性能显著下降。实验结果表明,所提出的M2FNet架构在知名数据集MELD和IEMOCAP上均取得了最高的加权平均F1分数,显著超越现有方法,刷新了该任务的最新性能纪录,达到了新的技术水平。