Une proposition de reconnaissance émotionnelle multimodale basée sur des transformateurs auditifs et des unités d’action sur le jeu de données RAVDESS
La reconnaissance des émotions suscite un intérêt croissant de la part de la communauté scientifique en raison de ses nombreuses applications dans divers domaines, tels que la médecine ou la conduite autonome. Dans cet article, nous proposons un système automatisé de reconnaissance des émotions basé sur deux composants : un reconnaissleur d’émotions par parole (SER) et un reconnaissleur d’émotions par visage (FER). Pour le SER, nous avons évalué un modèle pré-entraîné XLSR-Wav2Vec2.0 basé sur une architecture transformer, en appliquant deux techniques d’apprentissage par transfert : l’extraction d’embeddings et le fine-tuning. Les meilleurs résultats en termes de précision ont été obtenus en fine-tunant l’intégralité du modèle après avoir ajouté un perceptron multicouche (MLP) en tête, ce qui confirme que l’entraînement est plus robuste lorsqu’il ne débute pas depuis zéro, et que les connaissances préalables du réseau sont proches de la tâche à adapter. Concernant le reconnaissleur d’émotions par visage, nous avons extrait les Unités d’Action (Action Units) des vidéos et comparé les performances entre des modèles statiques et des modèles séquentiels. Les résultats montrent que les modèles séquentiels surpassent légèrement les modèles statiques. L’analyse des erreurs indique que les systèmes visuels pourraient bénéficier d’un détecteur de trames à forte charge émotionnelle, ouvrant ainsi une nouvelle voie de recherche pour découvrir de nouvelles méthodes d’apprentissage à partir de vidéos. Enfin, en combinant ces deux modalités à l’aide d’une stratégie de fusion tardive, nous avons atteint une précision de 86,70 % sur le jeu de données RAVDESS, dans un cadre d’évaluation 5-CV par sujet, en classifiant huit émotions. Ces résultats démontrent que les deux modalités portent des informations pertinentes pour détecter l’état émotionnel des utilisateurs, et que leur combinaison permet d’améliorer significativement les performances du système final.