CAGE : Inférence d'expression guidée par l'affect circumplex

La compréhension des émotions et des expressions est une tâche d’intérêt multidisciplinaire, notamment pour améliorer les expériences utilisateur. Contrairement à la perception courante, il a été démontré que les émotions ne sont pas des entités discrètes, mais s’inscrivent plutôt sur un continuum. Les individus interprètent les émotions discrètes de manière différente, en raison de facteurs variés tels que le contexte culturel, les expériences personnelles et les biais cognitifs. Par conséquent, la plupart des approches actuelles d’analyse des expressions, en particulier celles fondées sur des catégories discrètes, sont intrinsèquement biaisées. Dans ce travail, nous présentons une analyse comparative approfondie de deux jeux de données couramment utilisés (AffectNet et EMOTIC), enrichis des composantes du modèle circumplex de l’affect. Par ailleurs, nous proposons un modèle de prédiction des expressions faciales conçu spécifiquement pour les applications légeres. En utilisant une architecture de modèle MaxViT à faible échelle, nous évaluons l’impact de l’utilisation des étiquettes de catégories discrètes lors de l’entraînement, en comparaison avec l’ajout des étiquettes continues de valence et d’arousal. Nous montrons que la prise en compte conjointe de la valence, de l’arousal et des catégories discrètes permet d’améliorer significativement l’inférence des expressions. Le modèle proposé dépasse les états de l’art actuels sur AffectNet, établissant ainsi le meilleur résultat pour la prédiction de la valence et de l’arousal, avec un RMSE réduit de 7 %. Les scripts d’entraînement ainsi que les poids entraînés permettant de reproduire nos résultats sont disponibles à l’adresse suivante : https://github.com/wagner-niklas/CAGE_expression_inference.