ELSA: Enhanced Local Self-Attention für Vision Transformer

Selbst-Attention ist leistungsfähig bei der Modellierung langreichweitiger Abhängigkeiten, weist jedoch Schwächen im Lernen feinster lokaler Merkmale auf. Die Leistungsfähigkeit der lokalen Selbst-Attention (LSA) liegt lediglich auf dem Niveau von Faltungen und ist inferior gegenüber dynamischen Filtern, was Forscher verwirrt: Sollte man LSA oder deren Alternativen verwenden, welche ist besser, und warum ist LSA nur mittelmäßig? Um diese Fragen zu klären, untersuchen wir LSA und ihre Alternativen umfassend aus zwei Perspektiven: \emph{Kanal-Einstellung} und \emph{räumliche Verarbeitung}. Wir stellen fest, dass der Schlüssel in der Generierung und Anwendung räumlicher Aufmerksamkeit liegt, wobei relative Positions-Embeddings und die Anwendung benachbarter Filter entscheidende Faktoren sind. Auf Basis dieser Erkenntnisse schlagen wir die verbesserte lokale Selbst-Attention (ELSA) mit Hadamard-Aufmerksamkeit und einem „Ghost Head“ vor. Die Hadamard-Aufmerksamkeit nutzt das Hadamard-Produkt, um effizient Aufmerksamkeitsmuster im benachbarten Fall zu generieren, während gleichzeitig eine hochwertige Abbildungskapazität erhalten bleibt. Der Ghost Head kombiniert Aufmerksamkeitskarten mit statischen Matrizen, um die Kanalkapazität zu erhöhen. Experimente belegen die Wirksamkeit von ELSA. Ohne Änderung der Architektur oder Hyperparameter führt der direkte Austausch von LSA durch ELSA bei Swin Transformer \cite{swin} zu einer Steigerung der Top-1-Accuracy um bis zu +1,4. ELSA bringt zudem konsistente Verbesserungen für VOLO \cite{volo} von D1 bis D5, wobei ELSA-VOLO-D5 eine Genauigkeit von 87,2 auf ImageNet-1K erreicht, ohne zusätzliche Trainingsbilder zu benötigen. Zudem evaluieren wir ELSA in nachgelagerten Aufgaben: ELSA steigert die Baseline auf COCO um bis zu +1,9 box Ap / +1,3 mask Ap und auf ADE20K um bis zu +1,9 mIoU. Der Quellcode ist unter \url{https://github.com/damo-cv/ELSA} verfügbar.