HyperAIHyperAI
il y a 17 jours

Détournez votre attention : réseau à attention croisée à multiples têtes pour la reconnaissance d'expressions faciales

Zhengyao Wen, Wenzhong Lin, Tao Wang, Ge Xu
Détournez votre attention : réseau à attention croisée à multiples têtes pour la reconnaissance d'expressions faciales
Résumé

Nous présentons un nouveau réseau de reconnaissance d’expressions faciales, appelé Distract your Attention Network (DAN). Notre méthode s’appuie sur deux observations clés. Premièrement, plusieurs classes partagent une apparence faciale sous-jacente intrinsèquement similaire, et leurs différences peuvent être subtilles. Deuxièmement, les expressions faciales s’expriment simultanément à travers plusieurs régions du visage, ce qui rend nécessaire une approche holistique permettant de coder des interactions d’ordre élevé entre les caractéristiques locales. Pour relever ces défis, nous proposons notre DAN, composé de trois composants principaux : le Feature Clustering Network (FCN), le Multi-head cross Attention Network (MAN) et l’Attention Fusion Network (AFN). Le FCN extrait des caractéristiques robustes en adoptant un objectif d’apprentissage à marge large afin de maximiser la séparabilité entre les classes. En outre, le MAN instancie un ensemble de têtes d’attention pour suivre simultanément plusieurs régions du visage et construire des cartes d’attention sur ces zones. Enfin, l’AFN distrait ces attentions vers plusieurs localisations avant de fusionner les cartes d’attention en une carte globale et cohérente. Des expériences étendues sur trois jeux de données publics (AffectNet, RAF-DB et SFEW 2.0) ont confirmé que la méthode proposée atteint de manière cohérente des performances de pointe en reconnaissance d’expressions faciales. Le code source sera mis à disposition à l’adresse suivante : https://github.com/yaoing/DAN.