vor 2 Monaten

RPVNet: Ein tiefes und effizientes Netzwerk zur Fusion von Bereichspunkten und Voxel für die Segmentierung von LiDAR-Punktewolken

Jianyun Xu; Ruixiang Zhang; Jian Dou; Yushi Zhu; Jie Sun; Shiliang Pu

Abstract

Punktwolken können auf verschiedene Weisen (Darstellungen) dargestellt werden, typischerweise als punktbasierte Mengen, voxelbasierte Zellen oder bereichsbasierte Bilder (z.B. panoramische Ansicht). Die punktbasierte Darstellung ist geometrisch genau, aber unstrukturiert, was die effiziente Suche nach lokalen Nachbarn erschwert. Die voxelbasierte Darstellung ist regelmäßig, aber dünn besetzt, und die Berechnungskomplexität steigt kubisch mit der Voxelauflösung. Die bereichsbasierte Darstellung ist regelmäßig und im Allgemeinen dicht, jedoch führt die sphärische Projektion zu Verzerrungen der physikalischen Dimensionen. Beide, die voxel- und die bereichsbasierten Darstellungen leiden unter Quantisierungsverlusten, insbesondere bei großen Szenen für Voxel. Um die Vorzüge verschiedener Darstellungen in der feingranularen Segmentierungsaufgabe zu nutzen und ihre eigenen Nachteile zu mildern, schlagen wir ein neues Fusionssystem vor, das diese drei Darstellungen miteinander verbindet: das Range-Point-Voxel-Fusion-Netzwerk (RPVNet). In diesem Netzwerk entwickeln wir einen tiefen Fusionsrahmen mit mehreren gegenseitigen Informationsaustauschen zwischen diesen drei Darstellungen und schlagen ein gattergesteuertes Fusionsmodul (GFM) vor, das die drei Merkmale basierend auf gleichzeitigen Eingaben anpassbar zusammenführt. Des Weiteren ist der vorgeschlagene RPV-Interaktionsmechanismus sehr effizient, und wir fassen ihn in eine allgemeinere Formulierung zusammen. Durch den Einsatz dieser effizienten Interaktion und einer relativ niedrigen Voxelauflösung wird unsere Methode auch als besonders effizient bewiesen. Schließlich haben wir das vorgeschlagene Modell an zwei umfangreichen Datensätzen evaluiert: dem SemanticKITTI-Datensatz und dem nuScenes-Datensatz; es zeigt dabei den aktuellen Stand der Technik in beiden Datensätzen. Es sei hervorgehoben, dass unsere Methode aktuell ohne zusätzliche Tricks den ersten Platz im SemanticKITTI-Leaderboard belegt.