11 天前

基于迁移学习的RAVDESS数据集多模态情感识别

{Fernando Fernández-Martínez, Juan M. Montero, Ricardo Kleinlein, Zoraida Callejas, David Griol, Cristina Luna-Jiménez}
摘要

情绪识别因其在医疗健康、道路安全系统等多个领域的潜在应用而受到研究界的广泛关注。本文提出了一种基于语音与面部信息的多模态情绪识别系统。在基于语音的模态中,我们评估了多种迁移学习技术,特别是嵌入特征提取与微调(Fine-Tuning)方法。实验结果表明,对PANNs框架中的CNN-14模型进行微调时取得了最佳识别准确率,这验证了在任务相似的前提下,从预训练模型出发进行训练比从零开始训练更具鲁棒性。针对面部情绪识别,本文提出一种新框架:该框架首先利用在显著性图与面部图像上预训练的空间变换网络(Spatial Transformer Network),随后接入带有注意力机制的双向长短期记忆网络(bi-LSTM)。误差分析显示,尽管进行了领域自适应,基于帧的系统在直接应用于视频级任务时仍存在若干问题,这一发现为未来研究提供了新方向——探索如何纠正此类模态间的不匹配,并有效利用预训练模型所蕴含的深层知识。最后,通过采用延迟融合(late fusion)策略整合两种模态,本系统在RAVDESS数据集上实现了80.08%的准确率(基于个体划分的5折交叉验证,分类8种情绪)。结果表明,语音与面部信息均包含有助于识别用户情绪状态的关键特征,二者融合显著提升了系统整体性能。

基于迁移学习的RAVDESS数据集多模态情感识别 | 最新论文 | HyperAI超神经