ARBEx : Extraction de Caractéristiques Attentives avec Équilibrage de Fiabilité pour un Apprendissage Robuste des Expressions Faciales

Dans cet article, nous présentons un cadre nommé ARBEx, une nouvelle approche d'extraction de caractéristiques attentive basée sur le Vision Transformer avec un équilibrage de fiabilité pour faire face aux mauvaises distributions de classes, aux biais et à l'incertitude dans la tâche d'apprentissage des expressions faciales (FEL). Nous renforçons plusieurs méthodes de prétraitement et de raffinement des données en utilisant un Vision Transformer à attention croisée basé sur des fenêtres afin d'optimiser l'utilisation des données. Nous utilisons également des points d'ancrage apprenables dans l'espace d'embedding, associés à la distribution des étiquettes et au mécanisme d'attention auto multi-têtes, pour améliorer les performances face aux prédictions faibles grâce à l'équilibrage de fiabilité. Cette stratégie utilise les points d'ancrage, les scores d'attention et les valeurs de confiance pour renforcer la résilience des prédictions d'étiquettes. Pour garantir une classification correcte des étiquettes et améliorer la puissance discriminante des modèles, nous introduisons une perte d'ancre qui encourage de grandes marges entre les points d'ancrage. De plus, le mécanisme d'attention auto multi-têtes, également apprenable, joue un rôle essentiel dans l'identification des étiquettes précises. Cette approche fournit des éléments critiques pour améliorer la fiabilité des prédictions et a un effet positif substantiel sur les capacités finales de prédiction. Notre modèle adaptable peut être intégré à n'importe quel réseau neuronal profond pour anticiper les défis dans diverses tâches de reconnaissance. Selon des expériences extensives menées dans divers contextes, notre stratégie surpasses les méthodologies actuelles de pointe.