HyperAIHyperAI

Command Palette

Search for a command to run...

DaViT: Dual Attention Vision Transformers

Mingyu Ding Bin Xiao Noel Codella Ping Luo Jingdong Wang Lu Yuan

Zusammenfassung

In dieser Arbeit stellen wir Dual Attention Vision Transformers (DaViT) vor, eine einfache jedoch wirksame Architektur für Vision Transformers, die in der Lage ist, globale Kontextinformationen zu erfassen, während gleichzeitig eine hohe rechnerische Effizienz gewährleistet wird. Wir nähern das Problem aus einer orthogonalen Perspektive an: Wir nutzen Selbst-Attention-Mechanismen sowohl mit „räumlichen Tokens“ als auch mit „Kanal-Tokens“. Bei räumlichen Tokens definiert die räumliche Dimension den Token-Bereich, während die Kanaldimension die Dimension der Token-Features bestimmt. Bei Kanal-Tokens ist die Zuordnung umgekehrt: Die Kanaldimension definiert den Token-Bereich, während die räumliche Dimension die Dimension der Token-Features angibt. Zusätzlich gruppieren wir die Tokens entlang der Sequenzrichtung sowohl für räumliche als auch für Kanal-Tokens, um die lineare Komplexität des gesamten Modells beizubehalten. Wir zeigen, dass diese beiden Selbst-Attention-Module sich gegenseitig ergänzen: (i) Da jeder Kanal-Token eine abstrakte Repräsentation des gesamten Bildes enthält, erfasst die Kanal-Attention auf natürliche Weise globale Wechselwirkungen und Repräsentationen, indem sie bei der Berechnung der Aufmerksamkeitswerte zwischen Kanälen alle räumlichen Positionen berücksichtigt; (ii) Die räumliche Attention verfeinert die lokalen Repräsentationen durch feinkörnige Interaktionen über räumliche Positionen hinweg, was wiederum die Modellierung globaler Informationen in der Kanal-Attention unterstützt. Ausführliche Experimente zeigen, dass unser DaViT eine state-of-the-art-Leistung auf vier unterschiedlichen Aufgaben mit effizienter Berechnung erzielt. Ohne zusätzliche Daten erreichen DaViT-Tiny, DaViT-Small und DaViT-Base auf ImageNet-1K eine Top-1-Accuracy von jeweils 82,8 %, 84,2 % und 84,6 % mit 28,3 Mio., 49,7 Mio. und 87,9 Mio. Parametern. Wenn wir DaViT mit 1,5 Milliarden schwach beschrifteten Bild- und Textpaaren weiter skalieren, erreicht DaViT-Gaint eine Top-1-Accuracy von 90,4 % auf ImageNet-1K. Der Quellcode ist unter https://github.com/dingmyu/davit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DaViT: Dual Attention Vision Transformers | Paper | HyperAI