HyperAIHyperAI
vor 16 Tagen

OctFormer: Octree-basierte Transformers für 3D-Punktwolken

Peng-Shuai Wang
OctFormer: Octree-basierte Transformers für 3D-Punktwolken
Abstract

Wir schlagen Octree-basierte Transformer, benannt OctFormer, für das Lernen mit 3D-Punktwolken vor. OctFormer kann nicht nur als allgemeiner und effektiver Backbone für die Segmentierung und Objekterkennung in 3D-Punktwolken dienen, sondern weist zudem eine lineare Komplexität auf und ist skalierbar für großflächige Punktwolken. Die zentrale Herausforderung bei der Anwendung von Transformer auf Punktwolken besteht darin, die quadratische, somit überwältigende Berechnungskomplexität der Aufmerksamkeitsmechanismen zu reduzieren. Um diesem Problem entgegenzuwirken, teilen mehrere Ansätze Punktwolken in nicht überlappende Fenster auf und beschränken die Aufmerksamkeit jeweils auf ein lokales Fenster. Allerdings variiert die Anzahl der Punkte in den einzelnen Fenstern erheblich, was eine effiziente Ausführung auf GPU erschwert. Beobachtend, dass Aufmerksamkeitsmechanismen robust gegenüber der Form lokaler Fenster sind, schlagen wir eine neuartige Octree-Aufmerksamkeit vor, die sortierte, permutierte Schlüssel von Octrees nutzt, um Punktwolken in lokale Fenster mit einer festen Anzahl von Punkten zu partitionieren, während die Form der Fenster frei variiert werden kann. Zudem führen wir eine dilatierte Octree-Aufmerksamkeit ein, um den Empfindungsbereich weiter zu erweitern. Unsere Octree-Aufmerksamkeit kann mit lediglich 10 Zeilen Code unter Verwendung offener Bibliotheken implementiert werden und läuft bei mehr als 200.000 Punkten 17-mal schneller als andere Aufmerksamkeitsmechanismen für Punktwolken. Aufbauend auf der Octree-Aufmerksamkeit kann OctFormer leicht skaliert werden und erreicht state-of-the-art-Leistungen auf einer Reihe von Benchmarks für 3D-Segmentierung und -Erkennung, wobei sowohl die Effizienz als auch die Effektivität gegenüber früheren, auf sparsen Voxel basierenden CNNs und Punktwolken-Transformer übertrifft. Insbesondere erreicht OctFormer auf dem anspruchsvollen ScanNet200-Datensatz eine Verbesserung von 7,3 in mIoU gegenüber sparsen Voxel-basierten CNNs. Unser Code und die trainierten Modelle sind unter https://wang-ps.github.io/octformer verfügbar.

OctFormer: Octree-basierte Transformers für 3D-Punktwolken | Neueste Forschungsarbeiten | HyperAI