Un algorithme d’attention-localisation pour éliminer les effets de fond dans la classification visuelle fine-grainée
La classification visuelle fine-grainée (FGVC) est une tâche exigeante, caractérisée par une similitude interclasse élevée et une diversité intraclasses importante, et présente de vastes perspectives d'applications. Récemment, plusieurs méthodes ont intégré le vision Transformer (ViT) dans les tâches de FGVC, car la spécificité des données du mécanisme d’attention auto-ajustée à plusieurs têtes (MSA) du ViT est avantageuse pour extraire des représentations de caractéristiques discriminantes. Toutefois, ces approches se concentrent principalement sur l’intégration des dépendances fonctionnelles au niveau élevé, ce qui rend le modèle sensible aux informations de fond de bas niveau. Pour remédier à ce problème, nous proposons un vision Transformer à localisation d’attention fine-grainée (FAL-ViT) ainsi qu’un module de sélection d’attention (ASM). Premièrement, le FAL-ViT repose sur un cadre en deux étapes permettant d’identifier efficacement les régions cruciales au sein des images et d’améliorer les caractéristiques grâce à une réutilisation stratégique des paramètres. Deuxièmement, le module ASM localise précisément les régions cibles importantes à l’aide des scores naturels du MSA, extrait des caractéristiques de bas niveau plus fines, et fournit des informations plus complètes grâce à une cartographie de position. Des expérimentations étendues sur des jeux de données publics démontrent que le FAL-ViT surpasser les autres méthodes en termes de performance, confirmant ainsi l’efficacité des approches proposées. Le code source est disponible à l’adresse suivante : https://github.com/Yueting-Huang/FAL-ViT.