HyperAIHyperAI

Command Palette

Search for a command to run...

Pyramid Vision Transformer: Ein vielseitiger Backbone für dichte Vorhersagen ohne Faltung

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

Zusammenfassung

Obwohl die Verwendung von Faltungsneuralen Netzen (CNNs) als Grundstrukturen in der Computer Vision große Erfolge erzielt hat, untersucht diese Arbeit ein einfaches Backbone-Netzwerk, das für viele Aufgaben der dichten Vorhersage ohne Faltungen nützlich ist. Im Gegensatz zum kürzlich vorgeschlagenen Transformer-Modell (z. B. ViT), das speziell für die Bildklassifikation entworfen wurde, schlagen wir den Pyramid Vision Transformer (PVT) vor, der die Schwierigkeiten bei der Übertragung von Transformer-Modellen auf verschiedene Aufgaben der dichten Vorhersage überwindet. Im Vergleich zu früheren Ansätzen weist PVT mehrere Vorteile auf: (1) Im Gegensatz zu ViT, das typischerweise niedrige Ausgabeauflösungen und hohe Rechen- und Speicherkosten aufweist, kann PVT nicht nur auf dicht gepackten Bildabschnitten trainiert werden, um eine hohe Ausgabeauflösung zu erreichen – was für dichte Vorhersagen entscheidend ist –, sondern nutzt auch eine schrittweise Verkleinerung der Pyramide, um die Berechnungen großer Merkmalskarten zu reduzieren. (2) PVT übernimmt die Vorteile sowohl von CNNs als auch von Transformers und fungiert damit als einheitliches Backbone für verschiedene Vision-Aufgaben ohne Faltungen, indem lediglich bestehende CNN-Backbones ersetzt werden. (3) Wir validieren PVT durch umfangreiche Experimente, die zeigen, dass es die Leistung vieler nachgeschalteter Aufgaben verbessert, beispielsweise Objektdetektion, semantische Segmentierung und Instanzsegmentierung. So erreicht RetinaNet+PVT mit vergleichbarer Anzahl an Parametern eine AP von 40,4 auf dem COCO-Datensatz und übertrifft damit RetinaNet+ResNet50 (36,3 AP) um 4,1 absolute AP. Wir hoffen, dass PVT als Alternative und nützliches Backbone für pixelgenaue Vorhersagen dienen und zukünftige Forschungen unterstützen kann. Der Quellcode ist unter https://github.com/whai362/PVT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp