CPGNet: Kaskadenförmiges Point-Grid-Fusion-Netzwerk für Echtzeit-LiDAR-Semantische Segmentierung

Die LiDAR-Semantiksegmentierung, die für fortgeschrittene autonome Fahrzeuge essentiell ist, muss genauer, schneller und einfach auf mobilen Plattformen bereitzustellen sein. Frühere punktbasierte oder sparsam-voxelbasierte Methoden sind weit davon entfernt, Echtzeitanwendungen zu ermöglichen, da zeitaufwändige Nachbarschaftssuche oder spärliche 3D-Faltung verwendet werden. Kürzlich entwickelte 2D-Projektionsmethoden, einschließlich Range View und Multi-View-Fusion, können in Echtzeit ausgeführt werden, leiden jedoch an geringerer Genauigkeit aufgrund von Informationsverlust während der 2D-Projektion. Darüber hinaus verlangsamen frühere Methoden den Inferenzprozess durch die Verwendung von Test-Time-Augmentation (TTA), um die Leistung zu verbessern. Um eine bessere Balance zwischen Geschwindigkeit und Genauigkeit zu erreichen, schlagen wir das Cascade Point-Grid Fusion Network (CPGNet) vor. Dieses Netzwerk gewährleistet Effizienz und Wirksamkeit hauptsächlich durch zwei Techniken: 1) Der neuartige Point-Grid (PG)-Fusionsblock extrahiert semantische Merkmale hauptsächlich auf dem 2D-projizierten Gitter zur Effizienz, fasst aber gleichzeitig sowohl 2D- als auch 3D-Merkmale auf dem 3D-Punkt zusammen, um den Informationsverlust minimieren; 2) Der vorgeschlagene Transformationskonsistenzerfolg verkleinert die Lücke zwischen der Einmal-Inferenz des Modells und der TTA. Experimente mit den Benchmarks SemanticKITTI und nuScenes zeigen, dass das CPGNet ohne Ensemblemodelle oder TTA vergleichbar mit dem aktuellen Stand der Technik RPVNet ist und gleichzeitig 4,7-mal schneller läuft.