HyperAIHyperAI
il y a 3 mois

Attention focalisée auto-attention pour les interactions locales-globales dans les Transformers visionnels

Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
Attention focalisée auto-attention pour les interactions locales-globales dans les Transformers visionnels
Résumé

Récemment, les Vision Transformers et leurs variantes ont montré un grand potentiel sur diverses tâches de vision par ordinateur. La capacité à capturer à la fois les dépendances visuelles à courte et à longue portée grâce à l’attention auto-associative est sans doute la principale source de leur succès. Toutefois, cette approche soulève également des défis en raison de la complexité computationnelle quadratique, en particulier dans les tâches de vision à haute résolution (par exemple, détection d’objets). Dans cet article, nous proposons une nouvelle mécanique appelée attention focalisée, qui intègre à la fois des interactions locales à fine granularité et des interactions globales à coarse granularité. Grâce à ce mécanisme, chaque token s’attache aux tokens voisins les plus proches à une granularité fine, tout en s’orientant vers des tokens éloignés à une granularité plus grossière, permettant ainsi de capturer efficacement et de manière optimale à la fois les dépendances visuelles à courte et à longue portée. En intégrant cette attention focalisée, nous introduisons une nouvelle variante de modèles Vision Transformer, nommée Focal Transformer, qui obtient des performances supérieures aux modèles Vision Transformer les plus avancés sur une large gamme de benchmarks publics pour la classification d’images et la détection d’objets. En particulier, nos modèles Focal Transformer de taille modérée (51,1 M de paramètres) et de taille plus grande (89,8 M de paramètres) atteignent respectivement 83,5 % et 83,8 % de précision Top-1 sur la classification d’images ImageNet à une résolution de 224×224. En utilisant les Focal Transformers comme architectures principales (backbones), nous obtenons des améliorations constantes et significatives par rapport aux Swin Transformers actuellement les plus performants pour six méthodes différentes de détection d’objets, entraînées selon les stratégies standard 1x et 3x. Notre plus grand modèle Focal Transformer atteint 58,7/58,9 mAP pour les boîtes (box mAP) et 50,9/51,3 mAP pour les masques (mask mAP) sur COCO mini-val/test-dev, ainsi qu’un mIoU de 55,4 sur ADE20K pour la segmentation sémantique, établissant de nouveaux états de l’art sur trois des tâches les plus exigeantes en vision par ordinateur.