
摘要
多模态情感识别在对话(MERC)中已受到多个领域的广泛关注,例如人机交互和推荐系统。现有的大多数研究通过特征解耦和融合来从多模态特征中提取情感上下文信息并进行情感分类。重新审视MERC的特点后,我们认为在特征解耦阶段应提取长距离上下文语义信息,在特征融合阶段应最大化模态间语义信息的一致性。受最近状态空间模型(State Space Models, SSMs)的启发,Mamba能够高效地建模长距离依赖关系。因此,在本工作中,我们充分考虑了上述见解以进一步提升MERC的性能。具体而言,一方面,在特征解耦阶段,我们提出了一种广义Mamba模型,该模型不依赖自注意力机制进行序列建模,而是利用状态空间模型压缩情感表示,并采用广义学习系统探索广义空间中的潜在数据分布。与之前的SSMs不同,我们设计了一种双向SSM卷积来提取全局上下文信息。另一方面,我们基于概率引导设计了一种多模态融合策略,以最大化模态间信息的一致性。实验结果表明,所提出的方法能够克服Transformer在建模长距离上下文时的计算和内存限制,并具有成为下一代MERC通用架构的巨大潜力。