Apprendre de Tous : Suppression de la Cohérence d'Attention pour la Reconnaissance d'Expressions Faciales avec Étiquettes Bruyantes

La reconnaissance des expressions faciales (FER) avec des étiquettes bruitées est plus difficile que les tâches traditionnelles de classification avec des étiquettes bruitées, en raison de la similarité interclasse et de l’ambiguïté des annotations. Les travaux récents abordent principalement ce problème en éliminant les échantillons présentant une perte élevée. Dans cet article, nous explorons une nouvelle approche fondée sur l’apprentissage de caractéristiques pour traiter les étiquettes bruitées. Nous constatons que les modèles FER mémorisent les échantillons bruités en se concentrant sur une partie des caractéristiques considérées comme liées aux étiquettes erronées, plutôt que d’apprendre à partir de l’ensemble des caractéristiques qui reflètent la vérité cachée. Inspirés par cette observation, nous proposons une méthode originale, appelée Erasing Attention Consistency (EAC), qui permet automatiquement de supprimer l’impact des échantillons bruités pendant l’entraînement. Plus précisément, nous concevons d’abord un cadre déséquilibré en exploitant la cohérence sémantique des images faciales lors de leur retournement (flip). Ensuite, nous effaçons aléatoirement des parties des images d’entrée et utilisons la cohérence de l’attention après retournement pour empêcher le modèle de se focaliser sur une sous-partie des caractéristiques. L’approche EAC surpasser de manière significative les méthodes les plus avancées pour la FER avec étiquettes bruitées, tout en se généralisant efficacement à d’autres tâches à nombre élevé de classes, telles que CIFAR100 et Tiny-ImageNet. Le code source est disponible à l’adresse suivante : https://github.com/zyh-uaiaaaa/Erasing-Attention-Consistency.