Kontrastive Instanzassoziation für die 4D-Panoptische Segmentierung mittels Sequenzen von 3D-LiDAR-Scans

Die Szenenverstehens ist entscheidend für die autonome Navigation in dynamischen Umgebungen. In diesem Bereich werden Perzeptionsaufgaben wie Segmentierung und Verfolgung üblicherweise getrennt bearbeitet. In diesem Artikel behandeln wir das Problem der 4D-panoptischen Segmentierung mithilfe von LiDAR-Scans, wobei jeder 3D-Punkt in einer zeitlichen Folge von Scans eine semantische Klasse zugewiesen und jeder Objekt eine zeitlich konsistente Instanz-ID zugeordnet werden muss. Wir stellen einen neuen Ansatz vor, der auf einer beliebigen Einzel-Scan-panoptischen Segmentierungsnetzwerk aufbaut und dieses durch die Assoziation von Instanzen über die Zeit auf den zeitlichen Bereich erweitert. Wir schlagen ein kontrastives Aggregationsnetzwerk vor, das die punktweisen Merkmale des panoptischen Netzwerks nutzt. Es generiert einen Embedding-Raum, in dem Kodierungen derselben Instanz zu verschiedenen Zeitpunkten nahe beieinander liegen und weit von Kodierungen anderer Instanzen entfernt sind. Der Trainingsprozess wird durch kontrastive Lernverfahren für selbstüberwachtes metrisches Lernen inspiriert. Unser Assoziationsmodul kombiniert optische und Bewegungsmerkmale, um Instanzen über Scans hinweg zu verknüpfen, wodurch eine zeitliche Perzeption ermöglicht wird. Wir evaluieren unseren vorgeschlagenen Ansatz am SemanticKITTI-Benchmark und erzielen sogar ohne Verwendung von Pose-Informationen Ergebnisse auf State-of-the-Art-Niveau.