VPNeXt – Die Neubewertung dichter Decoding für reine Vision Transformers

Wir stellen VPNeXt vor, ein neuartiges und einfaches Modell für den Plain Vision Transformer (ViT). Im Gegensatz zu zahlreichen verwandten Studien, die dasselbe homogene Paradigma verfolgen, bietet VPNeXt eine frische Perspektive auf dichte Darstellungen basierend auf dem ViT. Genauer betrachtet adressiert das vorgeschlagene VPNeXt zwei zentrale Fragen im Hinblick auf das bestehende Paradigma: (1) Ist es wirklich notwendig, eine komplexe Transformer-Masken-Decoder-Architektur einzusetzen, um qualitativ hochwertige Darstellungen zu erzielen? (2) Benötigt der Plain ViT tatsächlich eine künstliche Pyramidenstruktur zur Upsampling-Operation? Bezüglich (1) untersuchten wir die zugrundeliegenden Ursachen für die Effektivität des Transformer-Decoders und stellten den Visual Context Replay (VCR) vor, um vergleichbare Effekte effizient zu erreichen. Bezüglich (2) führten wir das ViTUp-Modul ein, das die bisher übersehene echte Pyramidenstruktur des ViT vollständig nutzt, um im Vergleich zu der früher verwendeten künstlichen Pyramidenstruktur bessere Upsampling-Ergebnisse zu erzielen. Dies markiert den ersten Fall einer solchen Funktionalität im Bereich der semantischen Segmentierung für Plain ViT. Wir führten Ablationsstudien zu den betreffenden Modulen durch, um deren Wirksamkeit schrittweise zu bestätigen. Zusätzlich wurden relevante Vergleichsexperimente und Visualisierungen durchgeführt, die zeigen, dass VPNeXt mit einer einfachen und effektiven Architektur eine state-of-the-art-Leistung erzielt. Darüber hinaus übertraf das vorgeschlagene VPNeXt die seit langem etablierte mIoU-Grenze des VOC2012-Datensatzes deutlich und erreichte mit einem erheblichen Abstand eine neue state-of-the-art-Leistung – eine Verbesserung, die seit 2015 die größte ist.