Pyramid Vision Transformer: Ein vielseitiger Backbone für dichte Vorhersagen ohne Faltung

Obwohl die Verwendung von Faltungsneuralen Netzen (CNNs) als Grundstrukturen in der Computer Vision große Erfolge erzielt hat, untersucht diese Arbeit ein einfaches Backbone-Netzwerk, das für viele Aufgaben der dichten Vorhersage ohne Faltungen nützlich ist. Im Gegensatz zum kürzlich vorgeschlagenen Transformer-Modell (z. B. ViT), das speziell für die Bildklassifikation entworfen wurde, schlagen wir den Pyramid Vision Transformer (PVT) vor, der die Schwierigkeiten bei der Übertragung von Transformer-Modellen auf verschiedene Aufgaben der dichten Vorhersage überwindet. Im Vergleich zu früheren Ansätzen weist PVT mehrere Vorteile auf: (1) Im Gegensatz zu ViT, das typischerweise niedrige Ausgabeauflösungen und hohe Rechen- und Speicherkosten aufweist, kann PVT nicht nur auf dicht gepackten Bildabschnitten trainiert werden, um eine hohe Ausgabeauflösung zu erreichen – was für dichte Vorhersagen entscheidend ist –, sondern nutzt auch eine schrittweise Verkleinerung der Pyramide, um die Berechnungen großer Merkmalskarten zu reduzieren. (2) PVT übernimmt die Vorteile sowohl von CNNs als auch von Transformers und fungiert damit als einheitliches Backbone für verschiedene Vision-Aufgaben ohne Faltungen, indem lediglich bestehende CNN-Backbones ersetzt werden. (3) Wir validieren PVT durch umfangreiche Experimente, die zeigen, dass es die Leistung vieler nachgeschalteter Aufgaben verbessert, beispielsweise Objektdetektion, semantische Segmentierung und Instanzsegmentierung. So erreicht RetinaNet+PVT mit vergleichbarer Anzahl an Parametern eine AP von 40,4 auf dem COCO-Datensatz und übertrifft damit RetinaNet+ResNet50 (36,3 AP) um 4,1 absolute AP. Wir hoffen, dass PVT als Alternative und nützliches Backbone für pixelgenaue Vorhersagen dienen und zukünftige Forschungen unterstützen kann. Der Quellcode ist unter https://github.com/whai362/PVT verfügbar.