LiDAR-basierte 4D-Panoptische Segmentierung durch dynamisches Schiebenetzwerk

Mit den raschen Fortschritten im Bereich autonomer Fahrzeuge wird es zunehmend kritisch, das Sensorystem mit einer umfassenderen 3D-Wahrnehmung auszustatten. Bestehende Arbeiten konzentrieren sich jedoch entweder auf die Analyse von Objekten (z.B. Autos und Fußgängern) oder von Szenen (z.B. Bäumen und Gebäuden) mithilfe des LiDAR-Sensors. In dieser Arbeit befassen wir uns mit der Aufgabe der lidar-basierten panoptischen Segmentierung, die darauf abzielt, sowohl Objekte als auch Szenen in einem einheitlichen Ansatz zu analysieren. Als eines der ersten Vorhaben in Richtung dieser neuen, herausfordernden Aufgabe schlagen wir das Dynamic Shifting Network (DS-Net) vor, welches als effektives Framework für die panoptische Segmentierung im Bereich der Punktwolken dient. Insbesondere weist DS-Net drei ansprechende Eigenschaften auf: 1) Starke Backbone-Architektur. DS-Net verwendet die Zylinderkonvolution, die speziell für LiDAR-Punktwolken entwickelt wurde. 2) Dynamisches Verschieben für komplexe Punkteverteilungen. Wir beobachten, dass gängige Clusteralgorithmen nicht in der Lage sind, komplexe autonome Fahrszenarien mit ungleichmäßig verteilten Punktwolken und variierenden Instanzgrößen zu verarbeiten. Daher präsentieren wir ein effizientes lernfähiges Clustermodul, das dynamische Verschiebung genannt wird und Kernel-Funktionen in Echtzeit für verschiedene Instanzen anpasst. 3) Erweiterung zur 4D-Vorhersage. Darüber hinaus erweitern wir DS-Net zur 4D-panoptischen Lidar-Segmentierung durch zeitlich einheitliches Instanzclustering auf ausgerichteten Lidar-Bildern.Um die Leistungsfähigkeit der lidar-basierten panoptischen Segmentierung umfassend zu bewerten, erstellen und pflegen wir Benchmarks aus zwei großen autonomen Fahrzeug-Lidar-Datensätzen, nämlich SemanticKITTI und nuScenes. Ausführliche Experimente zeigen, dass unser vorgeschlagenes DS-Net in beiden Aufgaben überlegene Genauigkeiten gegenüber aktuellen Stand-of-the-Art-Methoden erreicht. Besonders auffällig ist hierbei, dass wir in der Einzelbildversion der Aufgabe die beste Methode um 1,8 % im PQ-Metrik übertreffen. In der 4D-Version der Aufgabe übertreffen wir den zweiten Platz um 5,4 % im LSTQ-Metrik.Anmerkungen:- "Punktwolken" ist eine etablierte Übersetzung für "point cloud".- "Stand-of-the-Art" wird oft als "state-of-the-art" belassen oder als "aktueller Stand der Technik" übersetzt.- Die Metriken PQ (Panoptic Quality) und LSTQ (Lidarsequence Temporal Panoptic Quality) werden direkt übernommen, da sie spezifische technische Begriffe sind.- "Benchmarks" wird ebenfalls direkt übernommen, da es in deutschen Texten häufig verwendet wird.- "SemanticKITTI" und "nuScenes" sind Eigennamen von Datensätzen und bleiben daher unverändert.