Jenseits lokaler Patche: Erhaltung global-lokaler Wechselwirkungen durch Verbesserung der Selbst-Attention mittels 3D-Punktwolken-Tokenisierung
Transformer-basierte Architekturen haben in jüngster Zeit beeindruckende Leistungen bei verschiedenen Aufgaben der Punktwolkenverarbeitung gezeigt, wie beispielsweise der 3D-Objektformklassifikation und der semantischen Segmentierung. Insbesondere lässt sich dies auf ihre Selbst-Attention-Mechanismen zurückführen, die in der Lage sind, langreichweitige Abhängigkeiten zu erfassen. Allerdings beschränken aktuelle Ansätze diese Funktion auf lokale Patch-Regionen, was aufgrund der quadratischen Speicherkomplexität des Attention-Mechanismus notwendig ist. Dies beeinträchtigt die Generalisierungsfähigkeit und Skalierbarkeit der Modelle, da bereits in frühen Schichten nicht-lokale Informationen verloren gehen. Um dieses Problem anzugehen, schlagen wir eine fensterbasierte Transformer-Architektur vor, die langreichweitige Abhängigkeiten erfassen kann, während gleichzeitig Informationen innerhalb lokaler Patches aggregiert werden. Dies erreichen wir, indem wir jedes Fenster mit einer Menge globaler Punktwolken-Token interagieren – einer repräsentativen Teilmenge der gesamten Szene – und die lokale Geometrie durch eine 3D-Histogramm-orientierte Gradienten-(HOG)-Beschreibung ergänzen. In einer Reihe von Experimenten zu Segmentierungs- und Klassifikationsaufgaben zeigen wir, dass unser Modell die derzeitigen State-of-the-Art-Ergebnisse bei der S3DIS-semantischen Segmentierung (plus 1,67 % mIoU), der ShapeNetPart-Teilsegmentierung (plus 1,03 % Instanz-mIoU) übertrifft und auf der ScanObjectNN-Aufgabe zur 3D-Objektklassifikation konkurrenzfähig abschneidet. Der Quellcode und die trainierten Modelle werden öffentlich zugänglich gemacht.