HyperAIHyperAI
vor 19 Tagen

Mask4D: End-to-End Mask-basierte 4D Panoptic Segmentation für LiDAR-Sequenzen

{Cyrill Stachniss, Jens Behley, Elias Marks, Louis Wiesmann, Lucas Nunes, Rodrigo Marcuzzi}
Mask4D: End-to-End Mask-basierte 4D Panoptic Segmentation für LiDAR-Sequenzen
Abstract

Szenenverstehen ist entscheidend für autonome Systeme, um zuverlässig in der realen Welt zu navigieren. Die panoptische Segmentierung von 3D-LiDAR-Scans ermöglicht es, die Umgebung eines Fahrzeugs semantisch zu beschreiben, indem für jeden 3D-Punkt eine semantische Klasse vorhergesagt wird, und individuelle Instanzen durch unterschiedliche Instanz-IDs identifiziert werden. Um die Dynamik der Umgebung zu erfassen, erweitert die 4D-panoptische Segmentierung diese Informationen durch zeitlich konsistente Instanz-IDs, um die verschiedenen Instanzen in den Scans über ganze Sequenzen hinweg konsistent zu identifizieren. Bisherige Ansätze zur 4D-panoptischen Segmentierung basieren auf Nachverarbeitungsschritten und sind oft nicht end-to-end trainierbar. In diesem Paper stellen wir einen neuartigen Ansatz vor, der end-to-end trainierbar ist und direkt eine Menge nicht überlappender Masken zusammen mit ihren semantischen Klassen und zeitlich konsistenten Instanz-IDs vorhersagt, ohne jegliche Nachverarbeitung wie Clustering oder Zuordnungen zwischen Vorhersagen. Wir erweitern ein maskenbasiertes 3D-panoptisches Segmentierungsmodell auf 4D, indem wir die Queries wiederverwenden, die in vorherigen Scans Instanzen decodiert haben. Auf diese Weise decodiert jede Query über die Zeit hinweg dieselbe Instanz, trägt deren ID mit sich und die Verfolgung erfolgt implizit. Dadurch können Segmentierung und Verfolgung gemeinsam optimiert und die 4D-panoptische Segmentierung direkt supervidiert werden.