EmoNeXt : une adaptation de ConvNeXt pour la reconnaissance des émotions faciales

Les expressions faciales jouent un rôle crucial dans la communication humaine, servant de moyen puissant et efficace pour exprimer une large gamme d'émotions. Avec les progrès réalisés dans l'intelligence artificielle et la vision par ordinateur, les réseaux neuronaux profonds sont apparus comme des outils performants pour la reconnaissance des émotions faciales. Dans cet article, nous proposons EmoNeXt, un nouveau cadre de deep learning pour la reconnaissance des expressions faciales basé sur une architecture de réseau ConvNeXt adaptée. Nous intégrons un Réseau de Transformateur Spatiale (Spatial Transformer Network [STN]) pour se concentrer sur les régions riches en caractéristiques du visage et des blocs Squeeze-and-Excitation pour capturer les dépendances inter-canaux. De plus, nous introduisons un terme de régularisation d'auto-attention, encourageant le modèle à générer des vecteurs de caractéristiques compacts. Nous démontrons la supériorité de notre modèle par rapport aux modèles de deep learning existants et reconnus sur le jeu de données FER2013 en termes de précision de classification des émotions.