HyperAIHyperAI

Command Palette

Search for a command to run...

ELSA : Attention Locale Auto-Enhancée pour les Vision Transformers

Jingkai Zhou Pichao Wang Fan Wang Qiong Liu Hao Li Rong Jin

Résumé

L’attention auto-supervisée est puissante pour modéliser les dépendances à longue portée, mais elle se révèle faible dans l’apprentissage des caractéristiques locales à haut niveau de finesse. Les performances de l’attention auto-supervisée locale (LSA) sont seulement comparables à celles des convolutions, et inférieures à celles des filtres dynamiques, ce qui interpelle les chercheurs quant au choix entre LSA et ses alternatives : laquelle est meilleure, et pourquoi LSA reste médiocre. Pour clarifier ces questions, nous menons une étude approfondie de la LSA et de ses concurrentes sous deux angles : le paramétrage canal et le traitement spatial. Nous constatons que le problème réside dans la génération et l’application de l’attention spatiale, où les embeddings de position relative et l’application du filtre voisin constituent des facteurs clés. À partir de ces observations, nous proposons une amélioration de la LSA, nommée ELSA (Enhanced Local Self-Attention), basée sur une attention de Hadamard et une tête fantôme. L’attention de Hadamard introduit le produit de Hadamard afin de générer efficacement l’attention dans les cas voisins, tout en préservant une capacité de cartographie de haut ordre. La tête fantôme combine les cartes d’attention avec des matrices statiques afin d’accroître la capacité canal. Des expériences montrent l’efficacité d’ELSA. Sans modification d’architecture ni de hyperparamètres, le remplacement direct de LSA par ELSA améliore le Swin Transformer \cite{swin} de jusqu’à +1,4 en précision top-1. ELSA améliore également de manière cohérente VOLO \cite{volo} de D1 à D5, où ELSA-VOLO-D5 atteint 87,2 sur ImageNet-1K sans recours à des images supplémentaires. En outre, nous évaluons ELSA sur des tâches à valeur ajoutée. ELSA améliore significativement le modèle de base de jusqu’à +1,9 en box Ap / +1,3 en mask Ap sur COCO, et de jusqu’à +1,9 en mIoU sur ADE20K. Le code est disponible à l’adresse \url{https://github.com/damo-cv/ELSA}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ELSA : Attention Locale Auto-Enhancée pour les Vision Transformers | Articles | HyperAI