il y a 17 jours

TransFG : Une architecture Transformer pour la reconnaissance fine-grainée

Ju He, Jie-Neng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang

Résumé

La classification visuelle fine-grain (FGVC), dont l’objectif est de reconnaître des objets au sein de sous-catégories, constitue une tâche particulièrement difficile en raison des différences inter-classes intrinsèquement subtiles. La plupart des travaux existants abordent principalement ce problème en réutilisant le réseau principal (backbone) pour extraire des caractéristiques des régions discriminantes détectées. Toutefois, cette stratégie complique inévitablement le pipeline et pousse les régions proposées à inclure la majeure partie des objets, ce qui empêche une localisation précise des parties véritablement importantes. Récemment, les transformateurs visuels (ViT) ont démontré une performance remarquable sur les tâches classiques de classification. Le mécanisme d’attention auto-associative du transformateur relie chaque jeton de patch au jeton de classification. Dans ce travail, nous évaluons d’abord l’efficacité du cadre ViT dans le contexte de la reconnaissance fine-grain. Ensuite, inspirés par le fait que le lien d’attention peut être intuitivement interprété comme un indicateur d’importance des jetons, nous proposons un nouveau module de sélection de parties (Part Selection Module) applicable à la plupart des architectures basées sur les transformateurs. Ce module intègre tous les poids d’attention bruts du transformateur pour construire une carte d’attention, guidant ainsi le réseau pour sélectionner de manière efficace et précise les patches d’image discriminants et calculer leurs relations. Une perte contrastive est appliquée afin d’augmenter la distance entre les représentations des caractéristiques des classes confusantes. Nous nommons le modèle transformateur amélioré TransFG, et démontrons sa valeur à travers des expériences menées sur cinq benchmarks populaires de classification fine-grain, où nous atteignons des performances de pointe (state-of-the-art). Des résultats qualitatifs sont également présentés afin d’assister à une meilleure compréhension de notre modèle.