il y a 17 jours

ELSA : Attention Locale Auto-Enhancée pour les Vision Transformers

Jingkai Zhou, Pichao Wang, Fan Wang, Qiong Liu, Hao Li, Rong Jin

Résumé

L’attention auto-supervisée est puissante pour modéliser les dépendances à longue portée, mais elle se révèle faible dans l’apprentissage des caractéristiques locales à haut niveau de finesse. Les performances de l’attention auto-supervisée locale (LSA) sont seulement comparables à celles des convolutions, et inférieures à celles des filtres dynamiques, ce qui interpelle les chercheurs quant au choix entre LSA et ses alternatives : laquelle est meilleure, et pourquoi LSA reste médiocre. Pour clarifier ces questions, nous menons une étude approfondie de la LSA et de ses concurrentes sous deux angles : le paramétrage canal et le traitement spatial. Nous constatons que le problème réside dans la génération et l’application de l’attention spatiale, où les embeddings de position relative et l’application du filtre voisin constituent des facteurs clés. À partir de ces observations, nous proposons une amélioration de la LSA, nommée ELSA (Enhanced Local Self-Attention), basée sur une attention de Hadamard et une tête fantôme. L’attention de Hadamard introduit le produit de Hadamard afin de générer efficacement l’attention dans les cas voisins, tout en préservant une capacité de cartographie de haut ordre. La tête fantôme combine les cartes d’attention avec des matrices statiques afin d’accroître la capacité canal. Des expériences montrent l’efficacité d’ELSA. Sans modification d’architecture ni de hyperparamètres, le remplacement direct de LSA par ELSA améliore le Swin Transformer \cite{swin} de jusqu’à +1,4 en précision top-1. ELSA améliore également de manière cohérente VOLO \cite{volo} de D1 à D5, où ELSA-VOLO-D5 atteint 87,2 sur ImageNet-1K sans recours à des images supplémentaires. En outre, nous évaluons ELSA sur des tâches à valeur ajoutée. ELSA améliore significativement le modèle de base de jusqu’à +1,9 en box Ap / +1,3 en mask Ap sur COCO, et de jusqu’à +1,9 en mIoU sur ADE20K. Le code est disponible à l’adresse \url{https://github.com/damo-cv/ELSA}.