HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Transformer avec pooling attentif pour la reconnaissance robuste des expressions faciales

Fanglei Xue Qiangchang Wang Zichang Tan Zhongsong Ma Guodong Guo

Résumé

La reconnaissance d’expressions faciales (FER) dans des conditions réelles (in the wild) constitue une tâche extrêmement difficile. Récemment, certains modèles basés sur les Vision Transformers (ViT) ont été explorés pour la FER, mais la plupart d’entre eux se montrent inférieurs aux réseaux de neurones convolutifs (CNN) en termes de performance. Ce défaut provient principalement du fait que les nouveaux modules proposés peinent à converger efficacement à partir de zéro, en raison de l’absence de biais inductifs, et sont enclins à se concentrer sur les zones occluses ou bruitées. TransFER, une méthode representative basée sur les transformateurs pour la FER, atténue partiellement ce problème grâce à une stratégie d’attention à branches multiples, mais introduit toutefois un coût computationnel excessif. À l’inverse, nous proposons deux modules de pooling attentifs (AP) permettant de traiter directement les caractéristiques bruyantes. Ces modules, appelés Attentive Patch Pooling (APP) et Attentive Token Pooling (ATP), visent à guider le modèle à privilégier les caractéristiques les plus discriminantes tout en réduisant l’impact des caractéristiques moins pertinentes. Le module APP est appliqué pour sélectionner les patches les plus informatifs à partir des caractéristiques extraites par un CNN, tandis que le module ATP élimine les tokens non essentiels dans un modèle ViT. Simple à implémenter et sans paramètres apprenables, APP et ATP réduisent de manière intuitive le coût computationnel tout en améliorant les performances en se concentrant uniquement sur les caractéristiques les plus discriminantes. Des résultats qualitatifs illustrent la motivation et l’efficacité de nos approches de pooling attentif. En outre, les résultats quantitatifs obtenus sur six jeux de données réels (in-the-wild) surpassent ceux des méthodes de pointe actuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vision Transformer avec pooling attentif pour la reconnaissance robuste des expressions faciales | Articles | HyperAI