RAMS-Trans : Transformeur multi-échelle à attention récurrente pour la reconnaissance d’images fine-grained

Dans la reconnaissance d’images à granularité fine (FGIR), la localisation et l’amplification de l’attention régionale constituent un facteur crucial, largement exploré par les approches basées sur les réseaux de neurones convolutifs (CNN). Les récents progrès réalisés par les vision transformers (ViT) ont permis d’obtenir des résultats prometteurs sur diverses tâches de vision par ordinateur. Contrairement aux CNN, la sérialisation d’images représente une approche entièrement nouvelle. Toutefois, le ViT souffre d’un champ réceptif limité, ce qui lui fait défaut une attention locale comparable à celle des CNN, en raison de la taille fixe de ses patches, et il ne parvient pas à générer des caractéristiques multi-échelles nécessaires pour apprendre une attention régionale discriminative. Afin de faciliter l’apprentissage d’une attention régionale discriminative sans recourir à des annotations de boîtes ou de parties, nous exploitons la force des poids d’attention pour mesurer l’importance des tokens patch correspondant aux images brutes. Nous proposons le modèle RAMS-Trans (Recurrent Attention Multi-scale Transformer), qui utilise l’attention auto du transformer pour apprendre de manière récursive, à plusieurs échelles, une attention régionale discriminative. Plus précisément, le cœur de notre approche repose sur un module dynamique de proposition de patches (DPPM), qui oriente l’amplification régionale pour assurer l’intégration des patches d’images à plusieurs échelles. Le DPPM commence par des patches couvrant toute l’image, puis itérativement intensifie l’attention régionale en générant de nouveaux patches, du global vers le local, en utilisant l’intensité des poids d’attention produits à chaque échelle comme indicateur. Notre méthode ne requiert que les poids d’attention fournis nativement par le ViT, et peut être entraînée de manière end-to-end de façon efficace. Des expériences étendues montrent que RAMS-Trans surpasser les méthodes concurrentes, y compris les modèles CNN efficaces, et atteint des résultats de pointe sur trois jeux de données standard.