HyperAIHyperAI

Command Palette

Search for a command to run...

TransFG : Une architecture Transformer pour la reconnaissance fine-grainée

Ju He Jie-Neng Chen Shuai Liu Adam Kortylewski Cheng Yang Yutong Bai Changhu Wang

Résumé

La classification visuelle fine-grain (FGVC), dont l’objectif est de reconnaître des objets au sein de sous-catégories, constitue une tâche particulièrement difficile en raison des différences inter-classes intrinsèquement subtiles. La plupart des travaux existants abordent principalement ce problème en réutilisant le réseau principal (backbone) pour extraire des caractéristiques des régions discriminantes détectées. Toutefois, cette stratégie complique inévitablement le pipeline et pousse les régions proposées à inclure la majeure partie des objets, ce qui empêche une localisation précise des parties véritablement importantes. Récemment, les transformateurs visuels (ViT) ont démontré une performance remarquable sur les tâches classiques de classification. Le mécanisme d’attention auto-associative du transformateur relie chaque jeton de patch au jeton de classification. Dans ce travail, nous évaluons d’abord l’efficacité du cadre ViT dans le contexte de la reconnaissance fine-grain. Ensuite, inspirés par le fait que le lien d’attention peut être intuitivement interprété comme un indicateur d’importance des jetons, nous proposons un nouveau module de sélection de parties (Part Selection Module) applicable à la plupart des architectures basées sur les transformateurs. Ce module intègre tous les poids d’attention bruts du transformateur pour construire une carte d’attention, guidant ainsi le réseau pour sélectionner de manière efficace et précise les patches d’image discriminants et calculer leurs relations. Une perte contrastive est appliquée afin d’augmenter la distance entre les représentations des caractéristiques des classes confusantes. Nous nommons le modèle transformateur amélioré TransFG, et démontrons sa valeur à travers des expériences menées sur cinq benchmarks populaires de classification fine-grain, où nous atteignons des performances de pointe (state-of-the-art). Des résultats qualitatifs sont également présentés afin d’assister à une meilleure compréhension de notre modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp