HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs de Vision Rapides avec l'Attention HiLo

Pan Zizheng ; Cai Jianfei ; Zhuang Bohan

Résumé

Les Vision Transformers (ViTs) ont déclenché les récentes et significatives avancées dans le domaine de la vision par ordinateur. Leurs conceptions efficaces sont principalement guidées par une métrique indirecte de complexité computationnelle, à savoir les FLOPs, qui cependant présentent un écart clair avec des métriques directes telles que le débit. Par conséquent, nous proposons d'utiliser l'évaluation directe de la vitesse sur la plateforme cible comme principe de conception pour des ViTs plus efficaces. Plus particulièrement, nous introduisons LITv2, un ViT simple et efficace qui se distingue favorablement des méthodes actuelles de pointe tout en offrant une vitesse supérieure dans une gamme variée de tailles de modèles. Au cœur de LITv2 se trouve un nouveau mécanisme d'auto-attention, que nous appelons HiLo. HiLo est inspiré par l'idée que les hautes fréquences dans une image capturent les détails fins locaux, tandis que les basses fréquences se concentrent sur les structures globales ; or, une couche d'auto-attention multi-têtes néglige ces caractéristiques différentes des fréquences. Ainsi, nous proposons de séparer les motifs à haute/basse fréquence au sein d'une couche d'attention en divisant les têtes en deux groupes : l'un encode les hautes fréquences par auto-attention au sein de chaque fenêtre locale, et l'autre encode les basses fréquences en effectuant une attention globale entre les clés et valeurs à basse fréquence moyennées et chaque position de requête dans la carte des caractéristiques d'entrée. Grâce à cette conception efficace pour les deux groupes, nous montrons que HiLo est supérieur aux mécanismes d'attention existants en évaluant exhaustivement les FLOPs, la vitesse et la consommation mémoire sur GPU et CPU. Par exemple, HiLo est 1,4 fois plus rapide que l'attention par réduction spatiale et 1,6 fois plus rapide que l'attention par fenêtre locale sur CPU. Propulsé par HiLo, LITv2 sert de puissant squelette pour des tâches visuelles principales telles que la classification d'images, la détection dense et la segmentation. Le code source est disponible à l'adresse suivante : https://github.com/ziplab/LITv2.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp