Reconnaissance des émotions faciales : Performance actuelle de l'état de l'art sur FER2013

La reconnaissance des émotions faciales (FER) revêt une importance capitale dans les interactions homme-machine, notamment dans des domaines tels que la pratique clinique ou la description du comportement. La mise en œuvre d’un modèle informatique précis et robuste pour la FER reste un défi, en raison de l’hétérogénéité des visages humains ainsi que des variations d’images, telles que les différentes orientations du visage ou les conditions d’éclairage. Parmi les différentes approches de FER, les modèles d’apprentissage profond, en particulier les réseaux de neurones convolutifs (CNN), se sont révélés particulièrement prometteurs grâce à leur capacité d’extraction automatique de caractéristiques puissante et à leur efficacité computationnelle. Dans ce travail, nous atteignons la plus haute précision de classification obtenue par un seul réseau sur le jeu de données FER2013. Nous utilisons l’architecture VGGNet, optimisons rigoureusement ses hyperparamètres et testons diverses méthodes d’optimisation. À notre connaissance, notre modèle atteint une précision d’état de l’art de 73,28 % sur FER2013, sans recourir à des données d’entraînement supplémentaires.