Fully-Convolutionale Punktnetze für große Punktwolken

Diese Arbeit schlägt eine allgemein verwendbare, vollständig faltungsnetzbasierte Architektur vor, die große 3D-Datenmengen effizient verarbeitet. Eine bemerkenswerte Eigenschaft unseres Ansatzes ist seine Fähigkeit, unstrukturierte 3D-Darstellungen wie Punktwolken als Eingabe zu verarbeiten und sie dann intern in geordnete Strukturen zu transformieren, um sie durch 3D-Faltungen zu verarbeiten. Im Gegensatz zu herkömmlichen Ansätzen, die entweder unstrukturierte oder strukturierte Darstellungen von Eingang bis Ausgang beibehalten, bietet unser Ansatz den Vorteil, dass er auf speichereffizienten Eingabedatendarstellungen operiert und gleichzeitig die natürliche Struktur der Faltungsvorgänge ausnutzt, um die redundanten Berechnungen und Speicherung von räumlichen Informationen im Netzwerk zu vermeiden. Das Netzwerk eliminiert die Notwendigkeit, rohe Sensordaten vor- oder nachzubearbeiten. Dies, zusammen mit der vollständig faltungsnetzbasierten Natur des Netzwerks, macht es zu einer End-to-End-Methode, die Punktwolken von großen Räumen oder sogar gesamten Zimmern mit bis zu 200.000 Punkten auf einmal verarbeiten kann. Ein weiterer Vorteil ist, dass unser Netzwerk entweder eine geordnete Ausgabe erzeugen oder Vorhersagen direkt auf die Eingabe-Punktwolke abbilden kann, wodurch es als allgemeiner PunktwolkenDeskriptor für viele 3D-Aufgaben geeignet wird. Wir demonstrieren die Fähigkeit unseres Netzwerks, sowohl niedrigstufige Merkmale als auch komplexe zusammengesetzte Beziehungen effektiv zu lernen, indem wir es an Benchmark-Datensätzen für semantische Voxel-Segmentierung, semantische Teile-Segmentierung und 3D-Szenen-Beschreibung bewerten.