HyperAIHyperAI
il y a 11 jours

Reconnaissance émotionnelle multimodale sur le jeu de données RAVDESS en utilisant le transfert d'apprentissage

{Fernando Fernández-Martínez, Juan M. Montero, Ricardo Kleinlein, Zoraida Callejas, David Griol, Cristina Luna-Jiménez}
Résumé

La reconnaissance des émotions attire de plus en plus l’attention de la communauté scientifique en raison de ses nombreuses applications potentielles, notamment dans les domaines de la santé ou des systèmes de sécurité routière. Dans cet article, nous proposons un système multimodal de reconnaissance des émotions fondé sur des informations audio et visuelles. Pour le modalité basée sur la parole, nous avons évalué plusieurs techniques d’apprentissage transféré, plus précisément l’extraction d’embeddings et le fine-tuning. Les meilleurs résultats en termes de précision ont été obtenus en fine-tunant le modèle CNN-14 du cadre PANNs, ce qui confirme que l’entraînement est plus robuste lorsqu’il ne débute pas à partir de zéro, notamment lorsque les tâches sont similaires. En ce qui concerne les détecteurs d’émotions faciales, nous proposons une architecture composée d’un réseau Transformer spatial pré-entraîné sur des cartes de saillance et des images faciales, suivi d’un bi-LSTM doté d’un mécanisme d’attention. L’analyse des erreurs montre que les systèmes basés sur des trames peuvent rencontrer certaines difficultés lorsqu’ils sont appliqués directement à des tâches vidéo, malgré l’adaptation de domaine, ce qui ouvre une nouvelle voie de recherche visant à découvrir de nouvelles méthodes pour corriger ce désalignement et exploiter pleinement les connaissances intégrées dans ces modèles pré-entraînés. Enfin, en combinant ces deux modalités par une stratégie de fusion tardive, nous avons atteint une précision de 80,08 % sur le jeu de données RAVDESS, dans un cadre d’évaluation croisée sujet-par-sujet à 5 plis, pour la classification de huit émotions. Les résultats démontrent que ces modalités portent des informations pertinentes pour détecter l’état émotionnel des utilisateurs, et que leur combinaison permet d’améliorer significativement les performances du système.

Reconnaissance émotionnelle multimodale sur le jeu de données RAVDESS en utilisant le transfert d'apprentissage | Articles de recherche récents | HyperAI