HyperAIHyperAI

Command Palette

Search for a command to run...

Un algorithme d’attention-localisation pour éliminer les effets de fond dans la classification visuelle fine-grainée

Sam Kwong Zhengguo Li Mingliang Zhou Zhenzhe Hechen Yueting Huang

Résumé

La classification visuelle fine-grainée (FGVC) est une tâche exigeante, caractérisée par une similitude interclasse élevée et une diversité intraclasses importante, et présente de vastes perspectives d'applications. Récemment, plusieurs méthodes ont intégré le vision Transformer (ViT) dans les tâches de FGVC, car la spécificité des données du mécanisme d’attention auto-ajustée à plusieurs têtes (MSA) du ViT est avantageuse pour extraire des représentations de caractéristiques discriminantes. Toutefois, ces approches se concentrent principalement sur l’intégration des dépendances fonctionnelles au niveau élevé, ce qui rend le modèle sensible aux informations de fond de bas niveau. Pour remédier à ce problème, nous proposons un vision Transformer à localisation d’attention fine-grainée (FAL-ViT) ainsi qu’un module de sélection d’attention (ASM). Premièrement, le FAL-ViT repose sur un cadre en deux étapes permettant d’identifier efficacement les régions cruciales au sein des images et d’améliorer les caractéristiques grâce à une réutilisation stratégique des paramètres. Deuxièmement, le module ASM localise précisément les régions cibles importantes à l’aide des scores naturels du MSA, extrait des caractéristiques de bas niveau plus fines, et fournit des informations plus complètes grâce à une cartographie de position. Des expérimentations étendues sur des jeux de données publics démontrent que le FAL-ViT surpasser les autres méthodes en termes de performance, confirmant ainsi l’efficacité des approches proposées. Le code source est disponible à l’adresse suivante : https://github.com/Yueting-Huang/FAL-ViT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un algorithme d’attention-localisation pour éliminer les effets de fond dans la classification visuelle fine-grainée | Articles | HyperAI