Semantische Szenenkompletierung mithilfe lokaler tiefer impliziter Funktionen auf LiDAR-Daten

Die semantische Szenenkompletierung ist die Aufgabe, gemeinsam die 3D-Geometrie und Semantik von Objekten und Oberflächen innerhalb eines gegebenen Raumbereichs zu schätzen. Dies stellt eine besonders herausfordernde Aufgabe dar, wenn reale Datensätze mit geringer Punktanzahl und starker Verdeckung vorliegen. Wir stellen ein Szenen-Segmentierungsnetzwerk basierend auf lokalen tiefen impliziten Funktionen als eine neuartige, lernbasierte Methode zur Szenenkompletierung vor. Im Gegensatz zu früheren Ansätzen zur Szenenkompletierung erzeugt unsere Methode eine kontinuierliche Szenendarstellung, die nicht auf einer Voxelisierung beruht. Rohpunktwolken werden lokal und auf mehreren räumlichen Auflösungen in einen latente Raum kodiert. Anschließend wird eine globale Szenenkompletierungsfunktion aus den lokalisierten Funktionspatches zusammengesetzt. Wir zeigen, dass diese kontinuierliche Darstellung geeignet ist, geometrische und semantische Eigenschaften umfangreicher Außenbereichsszenen zu erfassen, ohne dass eine räumliche Diskretisierung erforderlich ist (wodurch der Kompromiss zwischen Szenenauflösung und abdeckbarem Szenenumfang vermieden wird).Wir trainieren und evaluieren unsere Methode an semantisch annotierten LiDAR-Aufnahmen des Semantic KITTI-Datensatzes. Unsere Experimente bestätigen, dass unsere Methode eine leistungsstarke Darstellung generiert, die in eine dichte 3D-Beschreibung einer gegebenen Szene zurücktransformiert werden kann. Die Leistung unserer Methode übertrifft den Stand der Technik im Semantic KITTI Scene Completion Benchmark hinsichtlich des geometrischen Completion-Intersection-over-Union (IoU).