Point Transformer V3: Einfacher, schneller, stärker

Diese Arbeit verfolgt nicht das Ziel, Innovationen innerhalb des Aufmerksamkeitsmechanismus zu erzielen. Stattdessen konzentriert sie sich darauf, die bestehenden Kompromisse zwischen Genauigkeit und Effizienz im Kontext der Punktwolkenverarbeitung zu überwinden, indem sie die Kraft der Skalierung nutzt. Inspiriert durch jüngste Fortschritte im Bereich der 3D-Skalenrepräsentationslernen erkennen wir, dass die Modellleistung stärker von der Skalierung als von komplexen Architekturdesigns beeinflusst wird. Daher präsentieren wir Point Transformer V3 (PTv3), das Einfachheit und Effizienz gegenüber der Genauigkeit bestimmter Mechanismen priorisiert, die nach der Skalierung nur eine geringe Rolle für die Gesamtleistung spielen, beispielsweise durch Ersetzen der präzisen Nachbarschaftssuche mittels KNN durch eine effiziente serialisierte Nachbarschaftsabbildung von Punktwolken, die nach spezifischen Mustern organisiert sind. Dieses Prinzip ermöglicht eine erhebliche Skalierung: Der Empfindungsbereich wird von 16 auf 1024 Punkte erweitert, während die Effizienz erhalten bleibt (eine 3-fache Steigerung der Verarbeitungsgeschwindigkeit und eine 10-fache Verbesserung der Speichereffizienz im Vergleich zu seinem Vorgänger, PTv2). PTv3 erreicht state-of-the-art-Ergebnisse bei über 20 nachgeschalteten Aufgaben, die sowohl indoor- als auch outdoor-Szenarien abdecken. Durch zusätzliche gemeinsame Trainingsstrategien über mehrere Datensätze hinweg werden diese Ergebnisse weiter verbessert.