对话式多模态情感识别中模态与上下文的解耦与融合再思考

近年来,如何在对话场景下的多模态语境中使机器理解人类情感,已成为一个备受关注的研究热点,该任务被称为对话中的多模态情感分析(Multimodal Emotion Recognition in Conversation, MM-ERC)。MM-ERC近年来持续受到学术界关注,研究者提出了多种多样方法以提升任务性能。现有大多数工作将MM-ERC视为标准的多模态分类问题,通过多模态特征解耦与融合来最大化特征的利用效率。然而,在重新审视MM-ERC的内在特性后,我们认为:在特征解耦与融合的过程中,必须同时合理建模特征的多模态性与对话上下文依赖性。为此,本文旨在充分结合上述洞察,进一步提升任务性能。一方面,在特征解耦阶段,基于对比学习技术,我们提出一种双层级解耦机制(Dual-level Disentanglement Mechanism, DDM),能够将特征分别解耦至模态空间(modality space)与话语空间(utterance space);另一方面,在特征融合阶段,我们分别设计了贡献感知融合机制(Contribution-aware Fusion Mechanism, CFM)与上下文重融合机制(Context Refusion Mechanism, CRM),用于实现多模态信息与对话上下文的协同整合。二者协同调度多模态特征与上下文特征的合理融合过程:CFM能够动态显式地管理各模态特征的贡献权重,而CRM则灵活调控对话上下文信息的引入方式。在两个公开的MM-ERC数据集上的实验结果表明,所提方法持续取得了新的最先进性能。进一步的分析验证了所提出各机制均能有效促进MM-ERC任务的性能提升,通过自适应地充分利用多模态信息与上下文语境。值得注意的是,本文所提出的方法具有广泛适用性,未来有望推动更多对话式多模态任务的发展。