HyperAIHyperAI
vor 16 Tagen

Nicht alle Voxel sind gleich: Semantische Szenenkompletierung aus der Punktvoxel-Perspektive

Xiaokang Chen, Jiaxiang Tang, Jingbo Wang, Gang Zeng
Nicht alle Voxel sind gleich: Semantische Szenenkompletierung aus der Punktvoxel-Perspektive
Abstract

In diesem Paper revisiten wir die semantische Szenen-Vervollständigung (Semantic Scene Completion, SSC), eine nützliche Aufgabe zur Vorhersage der semantischen und Besetzungsrepräsentation dreidimensionaler Szenen. Zahlreiche Ansätze für diese Aufgabe basieren stets auf voxelisierten Szenenrepräsentationen, um die lokale Struktur der Szene zu bewahren. Aufgrund der Existenz sichtbarer leerer Voxel leiden diese Methoden jedoch bei zunehmender Tiefe des Netzwerks stets unter erheblicher Rechenredundanz, was die Qualität der Vervollständigung einschränkt. Um dieses Dilemma zu lösen, schlagen wir ein neuartiges Punktwolken-Voxel-Aggregationsnetzwerk für diese Aufgabe vor. Zunächst transformieren wir die voxelisierten Szenen durch Entfernung der sichtbaren leeren Voxel in Punktwolken und nutzen einen tiefen Punktwolkenstrom, um semantische Informationen effizient aus der Szene zu extrahieren. Gleichzeitig wird ein leichtgewichtiger Voxelstrom mit lediglich zwei 3D-Konvolutionsschichten eingesetzt, um die lokale Struktur der voxelisierten Szenen zu bewahren. Darüber hinaus entwerfen wir einen anisotropen Voxel-Aggregationsoperator, um strukturelle Details aus dem Voxelstrom in den Punktwolkenstrom zu integrieren, sowie ein semantikbewusstes Propagationsmodul, das den Up-Sampling-Prozess im Punktwolkenstrom durch semantische Etiketten verbessert. Wir zeigen, dass unser Modell auf zwei Benchmarks deutlich über den Stand der Technik hinausgeht, wobei lediglich Tiefenbilder als Eingabe verwendet werden.