Selbstpositionierender Punkt-basierter Transformer für die Verarbeitung von Punktwolken

Transformer haben auf verschiedenen Aufgaben der Computer Vision dank ihrer Fähigkeit, langreichweitige Abhängigkeiten zu erfassen, eine überlegene Leistung gezeigt. Trotz des Erfolgs ist es schwierig, Transformer direkt auf Punktwolken anzuwenden, aufgrund ihres quadratischen Kostenfaktors in Bezug auf die Anzahl der Punkte. In dieser Arbeit stellen wir einen Self-Positioning point-based Transformer (SPoTr) vor, der sowohl lokale als auch globale Formkontexte mit reduzierter Komplexität erfassen soll. Insbesondere besteht diese Architektur aus lokaler Selbst-Aufmerksamkeit und einer selbstpositionierenden punktbasierten globalen Kreuz-Aufmerksamkeit. Die selbstpositionierenden Punkte, die sich anhand der Eingabeform adaptiv positionieren, berücksichtigen sowohl räumliche als auch semantische Informationen durch entkoppelte Aufmerksamkeit, um die Ausdrucksstärke zu verbessern. Mit den selbstpositionierenden Punkten schlagen wir ein neuartiges globales Kreuz-Aufmerksamkeitsmechanismus für Punktwolken vor, der die Skalierbarkeit der globalen Selbst-Aufmerksamkeit erhöht, indem er das Berechnen von Aufmerksamkeitsgewichten nur mit einer kleinen Menge von selbstpositionierenden Punkten ermöglicht. Experimente zeigen die Effektivität von SPoTr bei drei Aufgaben mit Punktwolken wie Formklassifizierung, Teilsegmentierung und Szene-Segmentierung. Insbesondere erreicht unser vorgeschlagenes Modell bei der Formklassifizierung mit ScanObjectNN eine Genauigkeitssteigerung von 2,6 % im Vergleich zu den bisher besten Modellen. Wir liefern zudem qualitative Analysen, um die Interpretierbarkeit der selbstpositionierenden Punkte zu veranschaulichen. Der Code für SPoTr ist unter https://github.com/mlvlab/SPoTr verfügbar.