Point Transformer

Selbst-Attention-Netzwerke haben die Verarbeitung natürlicher Sprache revolutioniert und machen beeindruckende Fortschritte bei Aufgaben der Bildanalyse, wie beispielsweise der Bildklassifizierung und Objekterkennung. Inspiriert durch diesen Erfolg untersuchen wir die Anwendung von Selbst-Attention-Netzwerken auf die Verarbeitung von 3D-Punktwolken. Wir entwerfen Selbst-Attention-Schichten für Punktwolken und nutzen diese, um Selbst-Attention-Netzwerke für Aufgaben wie semantische Szenensegmentierung, Objektpart-Segmentierung und Objektklassifizierung zu konstruieren. Unser Entwurf des Point Transformer übertrifft vorherige Ansätze in verschiedenen Domänen und Aufgaben. Beispielsweise erreicht der Point Transformer auf dem anspruchsvollen S3DIS-Datensatz für die semantische Szenensegmentierung im großen Maßstab eine mIoU von 70,4 % auf Area 5, wodurch er das stärkste vorherige Modell um 3,3 absolute Prozentpunkte schlägt und erstmals die Schwelle von 70 % mIoU überschreitet.