LiDAR-basierte panoptische Segmentierung mittels dynamischem Verschiebungsnetzwerk

Mit den rasanten Fortschritten im Bereich des autonomen Fahrens wird es zunehmend entscheidend, die Sensorsysteme mit einer umfassenderen 3D-Wahrnehmung auszustatten. Bisherige Ansätze konzentrieren sich jedoch entweder auf die Analyse von Objekten (z. B. Fahrzeuge und Fußgänger) oder von Szenen (z. B. Bäume und Gebäude) aus LiDAR-Daten. In dieser Arbeit behandeln wir die Aufgabe der LiDAR-basierten panoptischen Segmentierung, die darauf abzielt, sowohl Objekte als auch Szenen einheitlich zu erfassen. Als eine der ersten Anstrengungen in Richtung dieser neuen, herausfordernden Aufgabe präsentieren wir das Dynamic Shifting Network (DS-Net), ein effektives Framework für die panoptische Segmentierung im Bereich von Punktwolken. Insbesondere zeichnet sich DS-Net durch drei ansprechende Eigenschaften aus: 1) Starke Backbone-Architektur: DS-Net nutzt die Zylinderfaltung (cylinder convolution), die speziell für LiDAR-Punktwolken entworfen wurde. Die extrahierten Merkmale werden sowohl von der semantischen als auch von der Instanz-Verzweigung gemeinsam genutzt, wobei die Instanz-Verzweigung im Bottom-up-Clustering-Stil arbeitet. 2) Dynamisches Verschieben zur Bewältigung komplexer Punktdistributionen: Wir beobachten, dass gängige Clustering-Algorithmen wie BFS oder DBSCAN Schwierigkeiten bei der Verarbeitung komplexer Szenen im autonomen Fahren haben, insbesondere bei nicht-gleichmäßigen Punktdichten und variierenden Instanzgrößen. Daher stellen wir ein effizientes, lernbares Clustering-Modul vor – das dynamische Verschieben –, das kernelbasierte Funktionen dynamisch und on-the-fly für unterschiedliche Instanzen anpasst. 3) Konsens-getriebene Fusion: Schließlich wird eine konsens-getriebene Fusion eingesetzt, um Inkonsistenzen zwischen semantischen und instanzbasierten Vorhersagen zu behandeln. Um die Leistung der LiDAR-basierten panoptischen Segmentierung umfassend zu evaluieren, haben wir Benchmarks aus zwei großen autonomen Fahrdatenbanken, SemanticKITTI und nuScenes, erstellt und konsolidiert. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes DS-Net die Genauigkeit gegenüber aktuellen State-of-the-Art-Methoden deutlich übertrifft. Besonders hervorzuheben ist, dass wir den ersten Platz im öffentlichen Leaderboard von SemanticKITTI erreichen konnten und die zweitbeste Methode bei der PQ-Metrik um 2,6 Prozent schlagen.