11 天前

M2FNet：对话情感识别的多模态融合网络

Vishal Chudasama, Purbayan Kar, Ashish Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Naoyuki Onoe

摘要

对话中的情绪识别（Emotion Recognition in Conversations, ERC）在构建富有同理心的人机交互系统中具有重要意义。在对话视频中，情绪信息可同时存在于多种模态中，包括音频、视频和文本（转录内容）。然而，由于各模态固有的特性，多模态ERC始终是一项极具挑战性的任务。现有的ERC研究主要依赖对话中的文本信息，忽视了音频与视觉模态的潜在价值。我们推测，通过引入多模态融合策略，有望显著提升情绪识别的准确率。为此，本文提出一种多模态融合网络（Multi-modal Fusion Network, M2FNet），该网络能够从视觉、音频和文本三种模态中提取与情绪相关的关键特征，并采用基于多头注意力机制的融合方法，整合输入数据中富含情绪信息的潜在表示。为更有效地挖掘音频与视觉模态中的情绪特征，我们设计了一种新型特征提取器，并结合一种新颖的自适应边界三元组损失函数（adaptive margin-based triplet loss）对其进行训练，以学习更具判别性的音频与视觉情绪特征。在ERC领域，现有方法通常在某一基准数据集上表现优异，但在其他数据集上性能显著下降。实验结果表明，所提出的M2FNet架构在知名数据集MELD和IEMOCAP上均取得了最高的加权平均F1分数，显著超越现有方法，刷新了该任务的最新性能纪录，达到了新的技术水平。