4 个月前

多模态提示变压器与混合对比学习在对话情感识别中的应用

Shihao Zou; Xianying Huang; Xudong Shen
多模态提示变压器与混合对比学习在对话情感识别中的应用
摘要

情感识别在对话(ERC)中对推动人机交互的发展起着重要作用。情感可以存在于多种模态中,而多模态ERC主要面临两个问题:(1)跨模态信息融合过程中的噪声问题,以及(2)语义相似但类别不同的少量样本情感标签的预测问题。为了解决这些问题并充分利用每种模态的特征,我们采用了以下策略:首先,对具有强表征能力的模态进行深度情感线索提取,并为表征能力较弱的模态设计了特征过滤器作为多模态提示信息。然后,我们设计了一种多模态提示变换器(Multimodal Prompt Transformer, MPT)来实现跨模态信息融合。MPT将多模态融合信息嵌入到Transformer的每个注意力层中,使提示信息参与文本特征的编码,并与多层次的文本信息融合,以获得更好的多模态融合特征。最后,我们采用了混合对比学习(Hybrid Contrastive Learning, HCL)策略来优化模型处理少量样本标签的能力。该策略利用无监督对比学习提高多模态融合的表征能力,并通过有监督对比学习挖掘少量样本标签的信息。实验结果表明,我们提出的模型在两个基准数据集上的ERC性能优于现有最先进模型。