HyperAIHyperAI

Command Palette

Search for a command to run...

PVT v2: Verbesserte Baselines mit Pyramid Vision Transformer

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

Zusammenfassung

Transformer hat in der jüngsten Vergangenheit vielversprechende Fortschritte in der Computer Vision erzielt. In dieser Arbeit präsentieren wir neue Baselines, indem wir den ursprünglichen Pyramid Vision Transformer (PVT v1) durch die Einführung dreier neuer Design-Elemente verbessern: (1) eine Aufmerksamkeits-Schicht mit linearer Komplexität, (2) überlappende Patch-Embedding und (3) ein convolutionales Feed-Forward-Netzwerk. Durch diese Modifikationen reduziert PVT v2 die Berechnungskomplexität von PVT v1 auf linear und erreicht signifikante Verbesserungen bei grundlegenden Aufgaben der Bildverarbeitung wie Klassifikation, Objektdetektion und Segmentierung. Besonders hervorzuheben ist, dass der vorgeschlagene PVT v2 Leistungen erzielt, die mit oder sogar besser sind als die jüngster Ansätze wie der Swin Transformer. Wir hoffen, dass diese Arbeit die Forschung auf dem Stand der Technik im Bereich Transformer für die Computer Vision voranbringt. Der Quellcode ist unter https://github.com/whai362/PVT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PVT v2: Verbesserte Baselines mit Pyramid Vision Transformer | Paper | HyperAI