Command Palette
Search for a command to run...
Transformateurs de Vision Rapides avec l'Attention HiLo
Transformateurs de Vision Rapides avec l'Attention HiLo
Pan Zizheng ; Cai Jianfei ; Zhuang Bohan
Résumé
Les Vision Transformers (ViTs) ont déclenché les récentes et significatives avancées dans le domaine de la vision par ordinateur. Leurs conceptions efficaces sont principalement guidées par une métrique indirecte de complexité computationnelle, à savoir les FLOPs, qui cependant présentent un écart clair avec des métriques directes telles que le débit. Par conséquent, nous proposons d'utiliser l'évaluation directe de la vitesse sur la plateforme cible comme principe de conception pour des ViTs plus efficaces. Plus particulièrement, nous introduisons LITv2, un ViT simple et efficace qui se distingue favorablement des méthodes actuelles de pointe tout en offrant une vitesse supérieure dans une gamme variée de tailles de modèles. Au cœur de LITv2 se trouve un nouveau mécanisme d'auto-attention, que nous appelons HiLo. HiLo est inspiré par l'idée que les hautes fréquences dans une image capturent les détails fins locaux, tandis que les basses fréquences se concentrent sur les structures globales ; or, une couche d'auto-attention multi-têtes néglige ces caractéristiques différentes des fréquences. Ainsi, nous proposons de séparer les motifs à haute/basse fréquence au sein d'une couche d'attention en divisant les têtes en deux groupes : l'un encode les hautes fréquences par auto-attention au sein de chaque fenêtre locale, et l'autre encode les basses fréquences en effectuant une attention globale entre les clés et valeurs à basse fréquence moyennées et chaque position de requête dans la carte des caractéristiques d'entrée. Grâce à cette conception efficace pour les deux groupes, nous montrons que HiLo est supérieur aux mécanismes d'attention existants en évaluant exhaustivement les FLOPs, la vitesse et la consommation mémoire sur GPU et CPU. Par exemple, HiLo est 1,4 fois plus rapide que l'attention par réduction spatiale et 1,6 fois plus rapide que l'attention par fenêtre locale sur CPU. Propulsé par HiLo, LITv2 sert de puissant squelette pour des tâches visuelles principales telles que la classification d'images, la détection dense et la segmentation. Le code source est disponible à l'adresse suivante : https://github.com/ziplab/LITv2.