HyperAIHyperAI
il y a 17 jours

Séparation et reconnaissance des émotions à partir d'une expression faciale par la génération d'un visage neutre à l'aide de Transformers visionnels

Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang
Séparation et reconnaissance des émotions à partir d'une expression faciale par la génération d'un visage neutre à l'aide de Transformers visionnels
Résumé

L'apprentissage de représentations et la désenchevêtrement des caractéristiques ont suscité un intérêt considérable dans le domaine de la reconnaissance des expressions faciales (FER). L'ambiguïté intrinsèque des étiquettes émotionnelles pose des défis aux méthodes traditionnelles d'apprentissage supervisé des représentations. De plus, l'apprentissage direct de la correspondance entre une image d'expression faciale et une étiquette émotionnelle manque de signaux de supervision explicites pour capturer des détails fins des traits faciaux. Dans cet article, nous proposons un nouveau modèle de FER, nommé Poker Face Vision Transformer (PF-ViT), afin de relever ces défis. PF-ViT vise à séparer et reconnaître l'émotion indépendante des perturbations à partir d'une image statique du visage en générant sa « face de poker » correspondante, sans nécessiter d'images appariées. Inspirés par le système de codage des actions faciales (Facial Action Coding System), nous considérons un visage expressif comme le résultat combiné d'un ensemble de mouvements musculaires appliqués à une « face de poker » (c’est-à-dire un visage neutre). PF-ViT utilise des Vision Transformers classiques, dont les composants sont pré-entraînés initialement comme Autoencodeurs masqués sur un grand jeu de données d'expressions faciales, sans étiquettes émotionnelles, produisant ainsi des représentations de haute qualité. Par la suite, nous entraînons PF-ViT dans un cadre GAN. Durant cet entraînement, la tâche auxiliaire de génération de « face de poker » favorise la désenchevêtrement entre les composantes émotionnelles et les composantes indépendantes de l'émotion, guidant ainsi le modèle de FER pour capturer de manière holistique les détails faciaux discriminants. Des résultats quantitatifs et qualitatifs démontrent l'efficacité de notre méthode, qui surpassent les états de l'art sur quatre jeux de données populaires de FER.