PVT v2: Verbesserte Baselines mit Pyramid Vision Transformer

Transformer hat in der jüngsten Vergangenheit vielversprechende Fortschritte in der Computer Vision erzielt. In dieser Arbeit präsentieren wir neue Baselines, indem wir den ursprünglichen Pyramid Vision Transformer (PVT v1) durch die Einführung dreier neuer Design-Elemente verbessern: (1) eine Aufmerksamkeits-Schicht mit linearer Komplexität, (2) überlappende Patch-Embedding und (3) ein convolutionales Feed-Forward-Netzwerk. Durch diese Modifikationen reduziert PVT v2 die Berechnungskomplexität von PVT v1 auf linear und erreicht signifikante Verbesserungen bei grundlegenden Aufgaben der Bildverarbeitung wie Klassifikation, Objektdetektion und Segmentierung. Besonders hervorzuheben ist, dass der vorgeschlagene PVT v2 Leistungen erzielt, die mit oder sogar besser sind als die jüngster Ansätze wie der Swin Transformer. Wir hoffen, dass diese Arbeit die Forschung auf dem Stand der Technik im Bereich Transformer für die Computer Vision voranbringt. Der Quellcode ist unter https://github.com/whai362/PVT verfügbar.