HyperAIHyperAI
vor 13 Tagen

GS-Occ3D: Skalierung der rein visuellen Besetzungsrekonstruktion mit Gaussian Splatting

Baijun Ye, Minghui Qin, Saining Zhang, Moonjun Gong, Shaoting Zhu, Zebang Shen, et al
GS-Occ3D: Skalierung der rein visuellen Besetzungsrekonstruktion mit Gaussian Splatting
Abstract

Besetztheit ist entscheidend für autonome Fahrfunktionen und liefert wesentliche geometrische Vorinformationen für Wahrnehmung und Planung. Bisherige Ansätze basieren jedoch überwiegend auf LiDAR-gestützten Besetztheitsannotationen, was die Skalierbarkeit einschränkt und die Nutzung großer Mengen potenzieller crowdsourcender Daten für die automatische Etikettierung verhindert. Um dieses Problem anzugehen, stellen wir GS-Occ3D vor – einen skalierbaren, vision-basierten Ansatz, der die Besetztheit direkt rekonstruiert. Die reine Vision-basierte Rekonstruktion der Besetztheit stellt aufgrund spärlicher Blickwinkel, dynamischer Szenenelemente, starker Verdeckungen und langfristiger Bewegung vor erhebliche Herausforderungen. Bestehende vision-basierte Methoden stützen sich hauptsächlich auf Mesh-Darstellungen, die unter unvollständiger Geometrie und zusätzlicher Nachverarbeitung leiden und damit die Skalierbarkeit einschränken. Um diese Probleme zu überwinden, optimiert GS-Occ3D eine explizite Besetztheitsdarstellung mittels einer Octree-basierten Gaussian Surfel-Formulierung, was Effizienz und Skalierbarkeit gewährleistet. Zudem zerlegen wir Szenen in statischen Hintergrund, Boden und dynamische Objekte, um gezielte Modellierungsstrategien einzusetzen: (1) Der Boden wird explizit als dominierendes strukturelles Element rekonstruiert, was die Konsistenz über große Flächen erheblich verbessert; (2) Dynamische Fahrzeuge werden getrennt modelliert, um Bewegungsmuster der Besetztheit präziser zu erfassen. Umfangreiche Experimente auf dem Waymo-Datensatz zeigen, dass GS-Occ3D Ergebnisse auf höchstem Niveau bei der geometrischen Rekonstruktion erzielt. Durch die Erstellung von vision-basierten binären Besetztheitslabels aus vielfältigen urbanen Szenen demonstrieren wir deren Wirksamkeit für nachgeschaltete Besetztheitsmodelle auf Occ3D-Waymo sowie eine überlegene Zero-Shot-Verallgemeinerung auf Occ3D-nuScenes. Dies unterstreicht das Potenzial einer großskaligen, vision-basierten Besetztheitsrekonstruktion als neue Paradigmen für skalierbare Auto-Labeling-Ansätze. Projektseite: this https URL