Neubewertung der Range-View-Darstellung für die LiDAR-Segmentierung

Die LiDAR-Segmentierung ist entscheidend für die Wahrnehmung in autonomen Fahrzeugen. Aktuelle Entwicklungen neigen zu punkt- oder voxelfundierten Methoden, da diese oft eine bessere Leistung als die traditionelle Range-View-Darstellung erzielen. In dieser Arbeit untersuchen wir mehrere zentrale Faktoren bei der Entwicklung leistungsfähiger Range-View-Modelle. Wir beobachten, dass die „many-to-one“-Abbildung, semantische Inkonsistenz sowie Formverzerrungen mögliche Hemmnisse für ein effektives Lernen aus Range-View-Projektionen darstellen können. Wir präsentieren RangeFormer – einen vollständigen Framework, der neuartige Ansätze in Netzwerkarchitektur, Daten-Augmentation und Nachverarbeitung integriert –, welcher die Bearbeitung und das Lernen von LiDAR-Punktwolken aus der Range-View-Darstellung signifikant verbessert. Darüber hinaus führen wir eine skalierbare Trainingsstrategie aus der Range-View (Scalable Training from Range view, STR) ein, die auf beliebigen, niedrigauflösenden 2D-Range-Bildern trainiert, während dennoch eine zufriedenstellende 3D-Segmentiergenauigkeit erhalten bleibt. Wir zeigen erstmals, dass eine Range-View-Methode in den vergleichenden Benchmarks für LiDAR-Semantik- und Panoptic-Segmentierung – nämlich SemanticKITTI, nuScenes und ScribbleKITTI – die Leistung von Punkt-, Voxel- und Multi-View-Fusionsmethoden übertreffen kann.