Un déjeuner gratuit pour ViT : Transformer à fusion multi-échelle par attention adaptative pour la reconnaissance visuelle fine-grainée

L’apprentissage de représentations subtiles des parties d’objets joue un rôle fondamental dans le domaine de la reconnaissance visuelle fine-grained (FGVR). Le vision transformer (ViT) a obtenu des résultats prometteurs en vision par ordinateur grâce à son mécanisme d’attention. Toutefois, du fait de la taille fixe des patches dans ViT, le token de classe présent dans les couches profondes se concentre sur un champ réceptif global et ne parvient pas à générer des caractéristiques à plusieurs granularités, ce qui constitue un défaut pour le FGVR. Afin de capturer l’attention portée aux régions sans nécessiter d’étiquettes de boîtes englobantes (box annotations) et de pallier les limites du ViT dans le cadre du FGVR, nous proposons une nouvelle méthode baptisée Adaptive Attention Multi-scale Fusion Transformer (AFTrans). Le module de collecte d’attention sélective (SACM) intégré à notre approche exploite les poids d’attention du ViT et les filtre de manière adaptative afin de refléter l’importance relative des patches d’entrée. Le pipeline à plusieurs échelles (globale et locale) est supervisé par un encodeur partageant les poids, permettant une formation end-to-end simple et efficace. Des expériences approfondies démontrent que AFTrans atteint des performances SOTA (state-of-the-art) sur trois benchmarks publiés de reconnaissance fine-grained : CUB-200-2011, Stanford Dogs et iNat2017.