2 个月前
多模态视听学习在情感识别中的应用
Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso

摘要
当前大多数视听情感识别模型缺乏在实际应用中部署所需的灵活性。我们设想一个能够在仅有一种模态可用时仍能工作的多模态系统,并且该系统可以互换地用于预测情感属性或识别类别情感。在多模态情感识别系统中实现这种灵活性非常困难,因为准确解释和整合不同数据源本身存在固有的挑战。同时,如何稳健地处理缺失或部分信息,以及在回归任务和分类任务之间直接切换也是一个难题。本研究提出了一种通用的视听学习(VAVL)框架,用于处理单模态和多模态系统的情感回归或情感分类任务。我们实现了一个视听框架,即使训练集的一部分没有音频和视频配对数据(即仅有音频或仅有视频),该框架也可以进行训练。通过使用视听共享层、共享层上的残差连接以及单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强大的基线模型。特别值得一提的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中达到了新的最先进水平。