Reconnaissance d'expression faciale avec une attention par grille et un transformateur visuel
La reconnaissance des expressions faciales (FER) a connu des progrès remarquables grâce à l’utilisation des réseaux neuronaux convolutifs (CNN). Toutefois, en se fondant sur la localité spatiale, les filtres convolutifs des CNN échouent généralement à apprendre les biais inductifs à longue portée entre différentes régions du visage dans la plupart des couches neuronales. En conséquence, les performances des modèles FER basés sur les CNN restent encore limitées. Pour remédier à ce problème, cette étude propose un nouveau cadre FER intégrant deux mécanismes d’attention spécifiquement conçus pour les modèles basés sur les CNN, chacun étant dédié respectivement à l’apprentissage des caractéristiques de bas niveau et à la représentation sémantique de haut niveau. Plus précisément, dans l’apprentissage des caractéristiques de bas niveau, un mécanisme d’attention par grille est introduit afin de capturer les dépendances entre différentes régions d’une image d’expression faciale, régularisant ainsi la mise à jour des paramètres des filtres convolutifs au niveau de basse abstraction. Dans la représentation sémantique de haut niveau, un mécanisme d’attention inspiré du modèle Transformer visuel utilise une séquence de jetons sémantiques visuels (générés à partir des caractéristiques pyramidales des blocs de couches convolutives profondes) pour apprendre une représentation globale. Des expérimentations étendues ont été menées sur trois jeux de données publics de reconnaissance des expressions faciales : CK+, FER+ et RAF-DB. Les résultats démontrent que notre modèle FER-VT atteint des performances de pointe sur ces jeux de données, notamment une précision de 100 % sur le jeu de données CK+ sans nécessiter de données d’entraînement supplémentaires.