HyperAIHyperAI
vor 2 Monaten

VoxFormer: Sparsierter Voxel-Transformer für kamerabasierte 3D-Semantische Szenerien vervollständigung

Li, Yiming ; Yu, Zhiding ; Choy, Christopher ; Xiao, Chaowei ; Alvarez, Jose M. ; Fidler, Sanja ; Feng, Chen ; Anandkumar, Anima
VoxFormer: Sparsierter Voxel-Transformer für kamerabasierte 3D-Semantische Szenerien vervollständigung
Abstract

Menschen können die vollständige 3D-Geometrie von verdeckten Objekten und Szenen leicht vorstellen. Diese faszinierende Fähigkeit ist entscheidend für die Erkennung und das Verstehen. Um KI-Systemen eine solche Fähigkeit zu ermöglichen, schlagen wir VoxFormer vor, einen auf dem Transformer basierenden Rahmen für semantische Szenevervollständigung, der aus reinen 2D-Bildern vollständige 3D-volumetrische Semantiken generieren kann. Unser Rahmen verwendet ein zweistufiges Design, bei dem wir mit einer dünnen Menge sichtbarer und besetzter Voxel-Anfragen beginnen, die aus der Tiefenschätzung stammen, gefolgt von einer Verdichtungsstufe, die dichte 3D-Voxel aus den dünnen erzeugt. Ein zentrales Konzept dieses Designs ist, dass die visuellen Merkmale in 2D-Bildern nur den sichtbaren Szenenstrukturen entsprechen und nicht den verdeckten oder leeren Räumen. Daher ist es zuverlässiger, mit der Merkmalsextraktion und Vorhersage der sichtbaren Strukturen zu beginnen. Sobald wir die Menge an dünnen Anfragen erhalten haben, wenden wir ein Design eines maskierten Autoencoders an, um durch Selbst-Aufmerksamkeit (self-attention) die Informationen auf alle Voxel zu übertragen. Experimente mit SemanticKITTI zeigen, dass VoxFormer den aktuellen Stand der Technik sowohl geometrisch als auch semantisch übertreffen kann: Es erreicht eine relative Verbesserung von 20,0 % in der Geometrie und 18,1 % in der Semantik und reduziert während des Trainings den GPU-Speicherbedarf auf weniger als 16 GB. Unser Code ist unter https://github.com/NVlabs/VoxFormer verfügbar.

VoxFormer: Sparsierter Voxel-Transformer für kamerabasierte 3D-Semantische Szenerien vervollständigung | Neueste Forschungsarbeiten | HyperAI