HyperAIHyperAI
vor 17 Tagen

MaxViT: Multi-Axis Vision Transformer

Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li
MaxViT: Multi-Axis Vision Transformer
Abstract

Transformers haben in letzter Zeit erhebliche Aufmerksamkeit in der Computer Vision-Community erlangt. Allerdings beschränkt die mangelnde Skalierbarkeit von Self-Attention-Mechanismen bezüglich der Bildgröße die breite Anwendung in modernen Vision-Backbones. In diesem Paper stellen wir ein effizientes und skalierbares Aufmerksamkeitsmodell vor, das wir Multi-Axis-Attention nennen. Es besteht aus zwei Komponenten: blockierter lokaler und dilatierter globaler Aufmerksamkeit. Diese Entwurfsentscheidungen ermöglichen globale-lokale räumliche Interaktionen bei beliebigen Eingabegrößen mit lediglich linearer Komplexität. Außerdem präsentieren wir ein neues architektonisches Element, das unser vorgeschlagenes Aufmerksamkeitsmodell effektiv mit Faltungsoperationen kombiniert. Auf dieser Basis schlagen wir einen einfachen hierarchischen Vision-Backbone vor, den wir MaxViT nennen, der durch wiederholtes Anwenden des grundlegenden Bausteins über mehrere Stufen entsteht. Besonders hervorzuheben ist, dass MaxViT bereits in frühen, hochauflösenden Stufen des Netzwerks global „sehen“ kann. Wir demonstrieren die Wirksamkeit unseres Modells an einer Vielzahl von Computer-Vision-Aufgaben. Bei der Bildklassifikation erreicht MaxViT state-of-the-art Ergebnisse unter verschiedenen Bedingungen: Ohne zusätzliche Daten erzielt MaxViT eine Top-1-Accuracy von 86,5 % auf ImageNet-1K; bei Vortrainierung auf ImageNet-21K erreicht das Modell eine Top-1-Accuracy von 88,7 %. Für nachgeschaltete Aufgaben liefert MaxViT als Backbone hervorragende Leistungen bei Objektdetektion sowie visueller Ästhetikbewertung. Zudem zeigen wir, dass unser vorgeschlagenes Modell starke Fähigkeiten im generativen Modellieren auf ImageNet besitzt und damit das hohe Potenzial von MaxViT-Blöcken als universeller Vision-Modul unterstreicht. Der Quellcode und die trainierten Modelle werden unter https://github.com/google-research/maxvit verfügbar gemacht.