HyperAIHyperAI

Command Palette

Search for a command to run...

Visual Attention Network

Meng-Hao Guo Cheng-Ze Lu Zheng-Ning Liu Ming-Ming Cheng Shi-Min Hu

Zusammenfassung

Obwohl der Selbst-Attention-Mechanismus ursprünglich für Aufgaben der natürlichen Sprachverarbeitung entwickelt wurde, hat er in jüngster Zeit verschiedene Gebiete der Computer Vision revolutioniert. Allerdings wirft die zweidimensionale Natur von Bildern drei zentrale Herausforderungen bei der Anwendung von Selbst-Attention in der Computer Vision auf: (1) Die Behandlung von Bildern als eindimensionale Folgen vernachlässigt deren zweidimensionale Struktur. (2) Die quadratische Komplexität ist für hochauflösende Bilder zu kostenintensiv. (3) Sie erfasst lediglich räumliche Anpassungsfähigkeit, ignoriert jedoch kanalbasierte Anpassungsfähigkeit. In diesem Paper stellen wir eine neuartige lineare Attention-Methode namens Large Kernel Attention (LKA) vor, die es ermöglicht, sich selbst adaptierende und langreichweitige Korrelationen im Selbst-Attention-Mechanismus zu realisieren, ohne dessen Nachteile zu übernehmen. Darüber hinaus präsentieren wir ein neuronales Netzwerk basierend auf LKA, das Visual Attention Network (VAN) heißt. Obwohl extrem einfach aufgebaut, übertrifft VAN Netzwerke ähnlicher Größe – sowohl Vision Transformers (ViTs) als auch konvolutionale neuronale Netze (CNNs) – in einer Vielzahl von Aufgaben, darunter Bildklassifikation, Objekterkennung, semantische Segmentierung, panoptische Segmentierung, Pose-Schätzung usw. Beispielsweise erreicht VAN-B6 eine Genauigkeit von 87,8 % auf dem ImageNet-Benchmark und setzt eine neue State-of-the-Art-Leistung (58,2 PQ) für die panoptische Segmentierung. Zudem übertrifft VAN-B2 Swin-T um 4 Prozentpunkte mIoU (50,1 gegenüber 46,1) bei der semantischen Segmentierung auf dem ADE20K-Benchmark und um 2,6 Prozentpunkte AP (48,8 gegenüber 46,2) bei der Objekterkennung auf dem COCO-Datensatz. VAN bietet der Forschungsgemeinschaft eine neue Methode sowie eine einfache, aber leistungsstarke Baseline. Der Quellcode ist unter https://github.com/Visual-Attention-Network verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp