9 天前

Joyful:联合模态融合与图对比学习用于多模态情感识别

Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
Joyful:联合模态融合与图对比学习用于多模态情感识别
摘要

多模态情感识别旨在对多模态对话中的每一句话进行情感识别,因其在人机交互中的广泛应用而受到越来越多的关注。现有的基于图的方法难以同时捕捉对话中的全局上下文特征与局部的多样化单模态特征,且随着图网络层数的增加,容易出现过平滑问题。本文提出一种用于多模态情感识别的联合模态融合与图对比学习方法(Joyful),该方法联合优化模态融合、对比学习与情感识别三个环节。具体而言,我们首先设计了一种新型多模态融合机制,能够实现全局上下文特征与单模态特异性特征之间的深度交互与融合。随后,引入一种包含跨视图(inter-view)与同视图(intra-view)对比损失的图对比学习框架,以学习更具区分性的不同情感样本表示。在三个基准数据集上的大量实验表明,Joyful在性能上显著优于所有基线方法,达到了当前最先进的水平(SOTA)。