Visual Attention Network

Obwohl der Selbst-Attention-Mechanismus ursprünglich für Aufgaben der natürlichen Sprachverarbeitung entwickelt wurde, hat er in jüngster Zeit verschiedene Gebiete der Computer Vision revolutioniert. Allerdings wirft die zweidimensionale Natur von Bildern drei zentrale Herausforderungen bei der Anwendung von Selbst-Attention in der Computer Vision auf: (1) Die Behandlung von Bildern als eindimensionale Folgen vernachlässigt deren zweidimensionale Struktur. (2) Die quadratische Komplexität ist für hochauflösende Bilder zu kostenintensiv. (3) Sie erfasst lediglich räumliche Anpassungsfähigkeit, ignoriert jedoch kanalbasierte Anpassungsfähigkeit. In diesem Paper stellen wir eine neuartige lineare Attention-Methode namens Large Kernel Attention (LKA) vor, die es ermöglicht, sich selbst adaptierende und langreichweitige Korrelationen im Selbst-Attention-Mechanismus zu realisieren, ohne dessen Nachteile zu übernehmen. Darüber hinaus präsentieren wir ein neuronales Netzwerk basierend auf LKA, das Visual Attention Network (VAN) heißt. Obwohl extrem einfach aufgebaut, übertrifft VAN Netzwerke ähnlicher Größe – sowohl Vision Transformers (ViTs) als auch konvolutionale neuronale Netze (CNNs) – in einer Vielzahl von Aufgaben, darunter Bildklassifikation, Objekterkennung, semantische Segmentierung, panoptische Segmentierung, Pose-Schätzung usw. Beispielsweise erreicht VAN-B6 eine Genauigkeit von 87,8 % auf dem ImageNet-Benchmark und setzt eine neue State-of-the-Art-Leistung (58,2 PQ) für die panoptische Segmentierung. Zudem übertrifft VAN-B2 Swin-T um 4 Prozentpunkte mIoU (50,1 gegenüber 46,1) bei der semantischen Segmentierung auf dem ADE20K-Benchmark und um 2,6 Prozentpunkte AP (48,8 gegenüber 46,2) bei der Objekterkennung auf dem COCO-Datensatz. VAN bietet der Forschungsgemeinschaft eine neue Methode sowie eine einfache, aber leistungsstarke Baseline. Der Quellcode ist unter https://github.com/Visual-Attention-Network verfügbar.