HyperAI超神经

情感识别因其在医疗、自动驾驶等多个领域的广泛应用而受到研究界的广泛关注。本文提出了一种自动情感识别系统，该系统由语音情感识别（Speech Emotion Recognition, SER）模块和面部情感识别（Facial Emotion Recognition, FER）模块组成。在SER部分，我们评估了基于预训练的xlsr-Wav2Vec2.0 Transformer模型，并采用两种迁移学习策略：嵌入特征提取与微调（fine-tuning）。实验结果表明，通过在模型顶部添加多层感知机（MLP）并对整个模型进行微调，取得了最佳的识别准确率。这一结果证实，相较于从零开始训练，利用预训练网络中已有的知识进行微调能够显著提升训练的鲁棒性，且初始模型结构与目标任务具有较高的相似性时效果更优。在面部情感识别方面，我们从视频中提取了面部动作单元（Action Units, AUs），并对比了静态模型与序列模型在性能上的差异。实验结果表明，序列模型相较于静态模型仅以微弱优势胜出。误差分析进一步指出，通过引入对高情感负荷帧的检测器，可有效提升视觉系统的性能，这为未来探索从视频中更高效学习情感特征开辟了新的研究方向。最后，采用晚期融合（late fusion）策略将两种模态的信息进行整合，在RAVDESS数据集上进行基于个体的5折交叉验证（subject-wise 5-CV），系统在识别八类情绪时达到了86.70%的准确率。实验结果表明，语音与面部两种模态均蕴含对用户情绪状态具有判别意义的信息，二者融合能够显著提升整体系统的识别性能。

基准	方法	指标
emotion-recognition-on-ravdess	LogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention	Accuracy: 86.70%
facial-emotion-recognition-on-ravdess	bi-LSTM+Attention	Accuracy: 62.13%
speech-emotion-recognition-on-ravdess	xlsr-Wav2Vec2.0(FineTuning)	Accuracy: 81.82%

基于听觉Transformer与面部动作单元在RAVDESS数据集上的多模态情感识别方案

{Fernando Fernández-Martínez Juan M. Montero Zoraida Callejas David Griol Ricardo Kleinlein Cristina Luna-Jiménez}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

基于听觉Transformer与面部动作单元在RAVDESS数据集上的多模态情感识别方案

{Fernando Fernández-Martínez Juan M. Montero Zoraida Callejas David Griol Ricardo Kleinlein Cristina Luna-Jiménez}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters