Up-to-Down-Netzwerk: Fusions mehrskaliger Kontextinformationen für die 3D-semantische Szenen-Vervollständigung
Ein effizienter Algorithmus zur 3D-Szenenwahrnehmung ist eine entscheidende Komponente für autonome Fahrzeuge und Robotersysteme. In diesem Artikel konzentrieren wir uns auf die semantische Szenen-Vervollständigung, eine Aufgabe, die darin besteht, gleichzeitig die volumetrische Besetztheit und die semantischen Bezeichnungen von Objekten zu schätzen. Da reale Welt-Daten oft spärlich und durch Verdeckung beeinträchtigt sind, stellt diese Aufgabe eine äußerst herausfordernde Herausforderung dar. Wir stellen einen neuen Ansatz namens Up-to-Down-Netzwerk (UDNet) vor, um die großflächige semantische Szenen-Vervollständigung mit einer Encoder-Decoder-Architektur für Voxel-Gitter zu erreichen. Der neuartige Up-to-Down-Block ermöglicht eine effektive Aggregation von Multi-Skalen-Kontextinformationen, was die Kohärenz der Beschriftungen verbessert. Zudem wird das atrous Spatial Pyramid Pooling-Modul eingesetzt, um den Empfindlichkeitsbereich zu erweitern, ohne dabei detaillierte geometrische Informationen zu verlieren. Zusätzlich ermöglicht die vorgeschlagene Multi-Skalen-Fusionsmechanik eine effiziente Aggregation von globalen Hintergrundinformationen und verbessert die Genauigkeit der semantischen Vervollständigung. Darüber hinaus kann unser UDNet zur Befriedigung unterschiedlicher Anforderungen auch eine mehrstufige semantische Vervollständigung durchführen, wodurch eine schnellere, jedoch grober abgestimmte Ausgabe erzielt wird. Ausführliche Experimente im semantischen Szenen-Vervollständigungsbenchmark SemanticKITTI zeigen, dass unser vorgeschlagener Ansatz die derzeit besten Methoden mit deutlichem Abstand übertrifft und gleichzeitig eine Echtzeit-Inferenzgeschwindigkeit erreicht, wobei lediglich Voxel-Gitter als Eingabedaten verwendet werden.