Apprentissage du Vision Transformer avec Squeeze and Excitation pour la reconnaissance d'expressions faciales

Depuis plusieurs décennies, la mise à disposition de diverses bases de données d'expressions faciales a suscité un intérêt croissant pour la tâche de reconnaissance des expressions faciales (FER). La diversité des sources des bases de données disponibles a posé plusieurs défis pour cette tâche. Ces défis sont généralement abordés par des architectures de réseaux de neurones convolutifs (CNN). À la différence des modèles CNN, une architecture basée sur le mécanisme d’attention, appelée Transformer, a récemment été proposée pour traiter des tâches visuelles. Toutefois, l’un des principaux inconvénients des Transformers réside dans la nécessité d’un grand volume de données d’entraînement, alors que la plupart des bases de données FER restent limitées par rapport aux applications visuelles classiques. Dans ce papier, nous proposons donc d’apprendre conjointement un Transformer visuel et un bloc Squeeze and Excitation (SE) pour la tâche de FER. La méthode proposée est évaluée sur plusieurs bases de données FER publiques, notamment CK+, JAFFE, RAF-DB et SFEW. Les expérimentations montrent que notre modèle dépasse les méthodes de pointe sur CK+ et SFEW, tout en obtenant des résultats compétitifs sur JAFFE et RAF-DB.