HyperAIHyperAI

Command Palette

Search for a command to run...

MaxViT: Multi-Axis Vision Transformer

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Zusammenfassung

Transformers haben in letzter Zeit erhebliche Aufmerksamkeit in der Computer Vision-Community erlangt. Allerdings beschränkt die mangelnde Skalierbarkeit von Self-Attention-Mechanismen bezüglich der Bildgröße die breite Anwendung in modernen Vision-Backbones. In diesem Paper stellen wir ein effizientes und skalierbares Aufmerksamkeitsmodell vor, das wir Multi-Axis-Attention nennen. Es besteht aus zwei Komponenten: blockierter lokaler und dilatierter globaler Aufmerksamkeit. Diese Entwurfsentscheidungen ermöglichen globale-lokale räumliche Interaktionen bei beliebigen Eingabegrößen mit lediglich linearer Komplexität. Außerdem präsentieren wir ein neues architektonisches Element, das unser vorgeschlagenes Aufmerksamkeitsmodell effektiv mit Faltungsoperationen kombiniert. Auf dieser Basis schlagen wir einen einfachen hierarchischen Vision-Backbone vor, den wir MaxViT nennen, der durch wiederholtes Anwenden des grundlegenden Bausteins über mehrere Stufen entsteht. Besonders hervorzuheben ist, dass MaxViT bereits in frühen, hochauflösenden Stufen des Netzwerks global „sehen“ kann. Wir demonstrieren die Wirksamkeit unseres Modells an einer Vielzahl von Computer-Vision-Aufgaben. Bei der Bildklassifikation erreicht MaxViT state-of-the-art Ergebnisse unter verschiedenen Bedingungen: Ohne zusätzliche Daten erzielt MaxViT eine Top-1-Accuracy von 86,5 % auf ImageNet-1K; bei Vortrainierung auf ImageNet-21K erreicht das Modell eine Top-1-Accuracy von 88,7 %. Für nachgeschaltete Aufgaben liefert MaxViT als Backbone hervorragende Leistungen bei Objektdetektion sowie visueller Ästhetikbewertung. Zudem zeigen wir, dass unser vorgeschlagenes Modell starke Fähigkeiten im generativen Modellieren auf ImageNet besitzt und damit das hohe Potenzial von MaxViT-Blöcken als universeller Vision-Modul unterstreicht. Der Quellcode und die trainierten Modelle werden unter https://github.com/google-research/maxvit verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp