HyperAIHyperAI

Command Palette

Search for a command to run...

Une proposition de reconnaissance émotionnelle multimodale basée sur des transformateurs auditifs et des unités d’action sur le jeu de données RAVDESS

Fernando Fernández-Martínez Juan M. Montero Zoraida Callejas David Griol Ricardo Kleinlein Cristina Luna-Jiménez

Résumé

La reconnaissance des émotions suscite un intérêt croissant de la part de la communauté scientifique en raison de ses nombreuses applications dans divers domaines, tels que la médecine ou la conduite autonome. Dans cet article, nous proposons un système automatisé de reconnaissance des émotions basé sur deux composants : un reconnaissleur d’émotions par parole (SER) et un reconnaissleur d’émotions par visage (FER). Pour le SER, nous avons évalué un modèle pré-entraîné XLSR-Wav2Vec2.0 basé sur une architecture transformer, en appliquant deux techniques d’apprentissage par transfert : l’extraction d’embeddings et le fine-tuning. Les meilleurs résultats en termes de précision ont été obtenus en fine-tunant l’intégralité du modèle après avoir ajouté un perceptron multicouche (MLP) en tête, ce qui confirme que l’entraînement est plus robuste lorsqu’il ne débute pas depuis zéro, et que les connaissances préalables du réseau sont proches de la tâche à adapter. Concernant le reconnaissleur d’émotions par visage, nous avons extrait les Unités d’Action (Action Units) des vidéos et comparé les performances entre des modèles statiques et des modèles séquentiels. Les résultats montrent que les modèles séquentiels surpassent légèrement les modèles statiques. L’analyse des erreurs indique que les systèmes visuels pourraient bénéficier d’un détecteur de trames à forte charge émotionnelle, ouvrant ainsi une nouvelle voie de recherche pour découvrir de nouvelles méthodes d’apprentissage à partir de vidéos. Enfin, en combinant ces deux modalités à l’aide d’une stratégie de fusion tardive, nous avons atteint une précision de 86,70 % sur le jeu de données RAVDESS, dans un cadre d’évaluation 5-CV par sujet, en classifiant huit émotions. Ces résultats démontrent que les deux modalités portent des informations pertinentes pour détecter l’état émotionnel des utilisateurs, et que leur combinaison permet d’améliorer significativement les performances du système final.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp