vor 7 Tagen

DaViT: Dual Attention Vision Transformers

Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan

Abstract

In dieser Arbeit stellen wir Dual Attention Vision Transformers (DaViT) vor, eine einfache jedoch wirksame Architektur für Vision Transformers, die in der Lage ist, globale Kontextinformationen zu erfassen, während gleichzeitig eine hohe rechnerische Effizienz gewährleistet wird. Wir nähern das Problem aus einer orthogonalen Perspektive an: Wir nutzen Selbst-Attention-Mechanismen sowohl mit „räumlichen Tokens“ als auch mit „Kanal-Tokens“. Bei räumlichen Tokens definiert die räumliche Dimension den Token-Bereich, während die Kanaldimension die Dimension der Token-Features bestimmt. Bei Kanal-Tokens ist die Zuordnung umgekehrt: Die Kanaldimension definiert den Token-Bereich, während die räumliche Dimension die Dimension der Token-Features angibt. Zusätzlich gruppieren wir die Tokens entlang der Sequenzrichtung sowohl für räumliche als auch für Kanal-Tokens, um die lineare Komplexität des gesamten Modells beizubehalten. Wir zeigen, dass diese beiden Selbst-Attention-Module sich gegenseitig ergänzen: (i) Da jeder Kanal-Token eine abstrakte Repräsentation des gesamten Bildes enthält, erfasst die Kanal-Attention auf natürliche Weise globale Wechselwirkungen und Repräsentationen, indem sie bei der Berechnung der Aufmerksamkeitswerte zwischen Kanälen alle räumlichen Positionen berücksichtigt; (ii) Die räumliche Attention verfeinert die lokalen Repräsentationen durch feinkörnige Interaktionen über räumliche Positionen hinweg, was wiederum die Modellierung globaler Informationen in der Kanal-Attention unterstützt. Ausführliche Experimente zeigen, dass unser DaViT eine state-of-the-art-Leistung auf vier unterschiedlichen Aufgaben mit effizienter Berechnung erzielt. Ohne zusätzliche Daten erreichen DaViT-Tiny, DaViT-Small und DaViT-Base auf ImageNet-1K eine Top-1-Accuracy von jeweils 82,8 %, 84,2 % und 84,6 % mit 28,3 Mio., 49,7 Mio. und 87,9 Mio. Parametern. Wenn wir DaViT mit 1,5 Milliarden schwach beschrifteten Bild- und Textpaaren weiter skalieren, erreicht DaViT-Gaint eine Top-1-Accuracy von 90,4 % auf ImageNet-1K. Der Quellcode ist unter https://github.com/dingmyu/davit verfügbar.