HyperAIHyperAI
vor 17 Tagen

ViTAEv2: Vision Transformer Advanced durch die Exploration von induktiven Voraussetzungen für die Bilderkennung und darüber hinaus

Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao
ViTAEv2: Vision Transformer Advanced durch die Exploration von induktiven Voraussetzungen für die Bilderkennung und darüber hinaus
Abstract

Vision-Transformer haben aufgrund ihrer starken Fähigkeit, langreichweitige Abhängigkeiten mittels des Selbst-Attention-Mechanismus zu modellieren, großes Potenzial in verschiedenen Aufgaben des Computer Vision gezeigt. Dennoch behandeln sie ein Bild als eine eindimensionale Folge visueller Tokens und verfügen dabei über keinen inhärenten induktiven Bias (IB) zur Modellierung lokaler visueller Strukturen oder zur Bewältigung von Skalenvarianz, was stattdessen implizit aus großen Trainingsdatensätzen bei längeren Trainingszyklen gelernt wird. In diesem Artikel stellen wir ViTAE vor – einen Vision Transformer, der durch die Exploration eines inhärenten induktiven Bias aus Faltungen (convolutions) verbessert wird. Technisch betrachtet verfügt ViTAE mehrere räumliche Pyramiden-Reduktionsmodule, um das Eingabebild durch mehrfache Faltungen mit unterschiedlichen Dilatationsraten zu verdichten und in Tokens mit reichhaltigem, mehrskaligem Kontext zu transformieren. Auf diese Weise erlangt das Modell einen inhärenten Skaleninvarianz-Bias und kann robuste Merkmalsdarstellungen für Objekte verschiedener Skalen lernen. Zudem verfügt ViTAE in jeder Transformer-Schicht neben dem Multi-Head-Self-Attention-Modul einen parallelen Faltungsblokk, dessen Merkmale mit denen des Self-Attention-Moduls fusioniert und anschließend in das Feed-Forward-Netzwerk eingespeist werden. Dadurch erlangt das Modell einen inhärenten Lokalitäts-Bias und ist in der Lage, lokale Merkmale und globale Abhängigkeiten kooperativ zu lernen. Die vorgeschlagenen zwei Arten von Zellen werden sowohl in isotroper als auch in mehrstufiger Anordnung gestapelt, um zwei Familien von ViTAE-Modellen zu bilden: das grundlegende ViTAE und ViTAEv2. Experimente auf dem ImageNet-Datensatz sowie auf nachgeschalteten Aufgaben auf den Datensätzen MS COCO, ADE20K und AP10K bestätigen die Überlegenheit unserer Modelle gegenüber Baseline-Transformer-Modellen und aktuellen Arbeiten. Darüber hinaus skalieren wir unser ViTAE-Modell auf 644 Mio. Parameter und erreichen damit die aktuell besten Klassifizierungsergebnisse: 88,5 % Top-1-Klassifizierungsgenauigkeit auf dem ImageNet-Validierungssatz und die bestmögliche Top-1-Genauigkeit von 91,2 % auf dem ImageNet-Real-Validierungssatz – ohne Verwendung zusätzlicher privater Daten.