HyperAIHyperAI
vor 19 Tagen

PVT: Point-Voxel Transformer für die Lernung von Punktwolken

Cheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu
PVT: Point-Voxel Transformer für die Lernung von Punktwolken
Abstract

Die kürzlich entwickelten reinen Transformer-Architekturen haben im Vergleich zu Faltungsneuralen Netzen vielversprechende Genauigkeit auf Benchmarks für Punktewolkenlernaufgaben erzielt. Allerdings sind bestehende Punktewolken-Transformer rechenintensiv, da sie eine erhebliche Menge an Zeit für die Strukturierung der unregelmäßigen Daten aufwenden. Um diesen Nachteil zu beheben, präsentieren wir das Sparse Window Attention (SWA)-Modul, das grobkörnige lokale Merkmale aus nicht-leeren Voxel gewinnt. Dieses Modul umgeht nicht nur die kostenintensive Strukturierung unregelmäßiger Daten und die Berechnung leerer Voxel, sondern erreicht zudem eine lineare Rechenkomplexität bezüglich der Voxel-Auflösung. Gleichzeitig führen wir das relative Aufmerksamkeits-Modul (RA) ein, um feinkörnige Merkmale bezüglich der globalen Form zu erfassen. RA ist eine robusteres Varianten des Selbst-Aufmerksamkeits-Mechanismus gegenüber starren Transformationen von Objekten. Mit der Kombination von SWA und RA konstruieren wir unsere neuronale Architektur namens PVT, die beide Module in einem gemeinsamen Rahmen für das Lernen mit Punktewolken integriert. Im Vergleich zu vorherigen Transformer- und Aufmerksamkeitsbasierten Modellen erreicht unsere Methode eine Spitzen-Genauigkeit von 94,0 % auf dem Klassifikationsbenchmark und im Durchschnitt eine 10-fache Beschleunigung bei der Inferenz. Ausführliche Experimente bestätigen zudem die Wirksamkeit von PVT auf Benchmarks für Teil- und Semantiksegmentierung (86,6 % und 69,2 % mIoU jeweils).