Transformateur par lots : Rechercher l'attention dans les lots

La reconnaissance des expressions faciales (FER) a suscité un intérêt considérable en vision par ordinateur, notamment dans des environnements « in-the-wild » tels que l’interaction homme-machine. Toutefois, les images utilisées pour la FER comportent des incertitudes telles que l’occlusion, la faible résolution, les variations d’orientation, les variations d’éclairage, ainsi que des biais subjectifs, incluant certaines expressions qui ne correspondent pas à l’étiquette cible. En conséquence, une seule image bruitée fournit peu d’informations fiables et ne peut être entièrement considérée comme crédible, ce qui peut fortement dégrader les performances de la tâche FER. Pour remédier à ce problème, nous proposons un transformateur par lot (BT), composé d’un module d’attention par lot de classe (CBA) nouvellement conçu, permettant de prévenir le surajustement aux données bruitées et d’extraire des informations fiables en s’appuyant sur les caractéristiques issues de plusieurs images d’un même lot, plutôt que sur celles d’une seule image. Nous introduisons également une attention multi-niveaux (MLA) afin de prévenir le surajustement aux caractéristiques spécifiques en capturant les corrélations entre les différents niveaux de représentation. Dans cet article, nous présentons un réseau de transformateur par lot (BTN) intégrant les deux propositions précédentes. Les résultats expérimentaux sur diverses bases de données de référence pour la FER montrent que le BTN proposé dépasse de manière cohérente les méthodes de pointe dans ce domaine. Des résultats représentatifs démontrent le potentiel prometteur du BTN proposé pour la reconnaissance des expressions faciales.