DaViT : Transformateurs d'attention duals pour la vision

Dans ce travail, nous introduisons les Dual Attention Vision Transformers (DaViT), une architecture de vision transformer simple mais efficace, capable de capturer le contexte global tout en préservant une efficacité computationnelle élevée. Nous abordons ce problème sous un angle orthogonal : l’exploitation des mécanismes d’attention auto-attentionnelle à la fois avec des « tokens spatiaux » et des « tokens canal ». Avec les tokens spatiaux, la dimension spatiale définit l’étendue du token, tandis que la dimension canal définit la dimension des caractéristiques du token. À l’inverse, avec les tokens canal, c’est la dimension canal qui définit l’étendue du token, et la dimension spatiale qui définit la dimension des caractéristiques du token. Nous regroupons par ailleurs les tokens selon la direction de la séquence, tant pour les tokens spatiaux que pour les tokens canal, afin de maintenir une complexité linéaire pour l’ensemble du modèle. Nous démontrons que ces deux attentions auto-attentionnelles s’accompagnent mutuellement : (i) puisque chaque token canal contient une représentation abstraite de toute l’image, l’attention canal capte naturellement les interactions et représentations globales en prenant en compte toutes les positions spatiales lors du calcul des scores d’attention entre canaux ; (ii) l’attention spatiale affine les représentations locales en effectuant des interactions à fine échelle entre les positions spatiales, ce qui améliore à son tour la modélisation des informations globales par l’attention canal. Des expériences étendues montrent que notre DaViT atteint des performances de pointe sur quatre tâches différentes, avec une efficacité computationnelle remarquable. Sans recourir à des données supplémentaires, DaViT-Tiny, DaViT-Small et DaViT-Base atteignent respectivement 82,8 %, 84,2 % et 84,6 % de précision top-1 sur ImageNet-1K, avec 28,3 M, 49,7 M et 87,9 M paramètres. Lorsque nous élargissons davantage DaViT en utilisant 1,5 milliard de paires d’images et de textes faiblement supervisées, DaViT-Gaint atteint 90,4 % de précision top-1 sur ImageNet-1K. Le code est disponible à l’adresse suivante : https://github.com/dingmyu/davit.