UniSeg: Ein einheitliches multimodales LiDAR-Segmentierungsnetzwerk und der OpenPCSeg-Codebase

Punkte-, Voxel- und Range-Ansichten sind drei repräsentative Formen von Punktwolken. Alle verfügen über präzise 3D-Messungen, weisen jedoch fehlende Farb- und Texturinformationen auf. RGB-Bilder stellen eine natürliche Ergänzung zu diesen Punktwolken-Ansichten dar, und die vollständige Ausnutzung der umfassenden Informationen beider Modality führt zu robusteren Wahrnehmungsergebnissen. In diesem Artikel präsentieren wir ein einheitliches, multimodales LiDAR-Segmentierungsnetzwerk namens UniSeg, das die Informationen von RGB-Bildern sowie der drei Punktwolken-Ansichten nutzt und gleichzeitig semantische und panoptische Segmentierung erzielt. Konkret entwerfen wir zunächst das lernbare cross-Modal-Assoziationsmodul (LMA), das Voxel- und Range-Ansichtsmerkmale automatisch mit Bildmerkmalen fusioniert und somit die reichhaltige semantische Information der Bilder optimal nutzt und robust gegenüber Kalibrierungsfehlern ist. Anschließend werden die verbesserten Voxel- und Range-Ansichtsmerkmale in den Punktraum transformiert, wo die drei Punktwolken-Ansichten mittels des lernbaren cross-View-Assoziationsmoduls (LVA) adaptiv weiter fusioniert werden. Bemerkenswert ist, dass UniSeg beachtliche Ergebnisse auf drei öffentlichen Benchmarks erzielt – nämlich SemanticKITTI, nuScenes und dem Waymo Open Dataset (WOD) – und sich auf zwei Herausforderungen zweier Benchmarks auf Platz 1 klassiert, darunter die LiDAR-Semantiksegmentierungsaufgabe in nuScenes und die panoptische Segmentierungsaufgabe in SemanticKITTI. Zudem stellen wir die OpenPCSeg-Codebase vor, die derzeit größte und umfassendste Open-Source-Codebasis für LiDAR-Segmentierung im Außenbereich. Sie umfasst die meisten gängigen Algorithmen zur LiDAR-Segmentierung im Außenbereich und bietet reproduzierbare Implementierungen. Die OpenPCSeg-Codebase wird unter https://github.com/PJLab-ADG/PCSeg öffentlich zugänglich gemacht.