2 个月前
探索音频-视频情感识别中的情感特征及融合策略
Hengshun Zhou; Debin Meng; Yuanyuan Zhang; Xiaojiang Peng; Jun Du; Kai Wang; Yu Qiao

摘要
基于音视频的情感识别旨在将给定的视频分类为基本情感。本文描述了我们在2019年EmotiW挑战赛中的方法,主要探讨了音频和视觉模态的情感特征及其融合策略。在情感特征方面,我们研究了语音频谱图和Log Mel频谱图(Log Mel-spectrogram)的音频特征,并评估了几种不同的卷积神经网络(CNN)模型和不同的情感预训练策略下的面部特征。在融合策略方面,我们探讨了模态内和跨模态的融合方法,例如设计注意力机制以突出重要的情感特征,研究特征拼接和因子分解双线性池化(Factorized Bilinear Pooling, FBP)用于跨模态特征融合。经过仔细评估,我们在AFEW验证集上获得了65.5%的准确率,在测试集上获得了62.48%的准确率,并在该挑战赛中排名第三。