il y a 17 jours

Vision Transformer avec pooling attentif pour la reconnaissance robuste des expressions faciales

Fanglei Xue, Qiangchang Wang, Zichang Tan, Zhongsong Ma, Guodong Guo

Résumé

La reconnaissance d’expressions faciales (FER) dans des conditions réelles (in the wild) constitue une tâche extrêmement difficile. Récemment, certains modèles basés sur les Vision Transformers (ViT) ont été explorés pour la FER, mais la plupart d’entre eux se montrent inférieurs aux réseaux de neurones convolutifs (CNN) en termes de performance. Ce défaut provient principalement du fait que les nouveaux modules proposés peinent à converger efficacement à partir de zéro, en raison de l’absence de biais inductifs, et sont enclins à se concentrer sur les zones occluses ou bruitées. TransFER, une méthode representative basée sur les transformateurs pour la FER, atténue partiellement ce problème grâce à une stratégie d’attention à branches multiples, mais introduit toutefois un coût computationnel excessif. À l’inverse, nous proposons deux modules de pooling attentifs (AP) permettant de traiter directement les caractéristiques bruyantes. Ces modules, appelés Attentive Patch Pooling (APP) et Attentive Token Pooling (ATP), visent à guider le modèle à privilégier les caractéristiques les plus discriminantes tout en réduisant l’impact des caractéristiques moins pertinentes. Le module APP est appliqué pour sélectionner les patches les plus informatifs à partir des caractéristiques extraites par un CNN, tandis que le module ATP élimine les tokens non essentiels dans un modèle ViT. Simple à implémenter et sans paramètres apprenables, APP et ATP réduisent de manière intuitive le coût computationnel tout en améliorant les performances en se concentrant uniquement sur les caractéristiques les plus discriminantes. Des résultats qualitatifs illustrent la motivation et l’efficacité de nos approches de pooling attentif. En outre, les résultats quantitatifs obtenus sur six jeux de données réels (in-the-wild) surpassent ceux des méthodes de pointe actuelles.