摘要
情感识别因其在医疗、自动驾驶等多个领域的广泛应用而受到研究界的广泛关注。本文提出了一种自动情感识别系统,该系统由语音情感识别(Speech Emotion Recognition, SER)模块和面部情感识别(Facial Emotion Recognition, FER)模块组成。在SER部分,我们评估了基于预训练的xlsr-Wav2Vec2.0 Transformer模型,并采用两种迁移学习策略:嵌入特征提取与微调(fine-tuning)。实验结果表明,通过在模型顶部添加多层感知机(MLP)并对整个模型进行微调,取得了最佳的识别准确率。这一结果证实,相较于从零开始训练,利用预训练网络中已有的知识进行微调能够显著提升训练的鲁棒性,且初始模型结构与目标任务具有较高的相似性时效果更优。在面部情感识别方面,我们从视频中提取了面部动作单元(Action Units, AUs),并对比了静态模型与序列模型在性能上的差异。实验结果表明,序列模型相较于静态模型仅以微弱优势胜出。误差分析进一步指出,通过引入对高情感负荷帧的检测器,可有效提升视觉系统的性能,这为未来探索从视频中更高效学习情感特征开辟了新的研究方向。最后,采用晚期融合(late fusion)策略将两种模态的信息进行整合,在RAVDESS数据集上进行基于个体的5折交叉验证(subject-wise 5-CV),系统在识别八类情绪时达到了86.70%的准确率。实验结果表明,语音与面部两种模态均蕴含对用户情绪状态具有判别意义的信息,二者融合能够显著提升整体系统的识别性能。