GS-Occ3D: Skalierung der rein visuellen Besetzungsrekonstruktion mit Gaussian Splatting

Besetztheit ist entscheidend für autonome Fahrfunktionen und liefert wesentliche geometrische Vorinformationen für Wahrnehmung und Planung. Bisherige Ansätze basieren jedoch überwiegend auf LiDAR-gestützten Besetztheitsannotationen, was die Skalierbarkeit einschränkt und die Nutzung großer Mengen potenzieller crowdsourcender Daten für die automatische Etikettierung verhindert. Um dieses Problem anzugehen, stellen wir GS-Occ3D vor – einen skalierbaren, vision-basierten Ansatz, der die Besetztheit direkt rekonstruiert. Die reine Vision-basierte Rekonstruktion der Besetztheit stellt aufgrund spärlicher Blickwinkel, dynamischer Szenenelemente, starker Verdeckungen und langfristiger Bewegung vor erhebliche Herausforderungen. Bestehende vision-basierte Methoden stützen sich hauptsächlich auf Mesh-Darstellungen, die unter unvollständiger Geometrie und zusätzlicher Nachverarbeitung leiden und damit die Skalierbarkeit einschränken. Um diese Probleme zu überwinden, optimiert GS-Occ3D eine explizite Besetztheitsdarstellung mittels einer Octree-basierten Gaussian Surfel-Formulierung, was Effizienz und Skalierbarkeit gewährleistet. Zudem zerlegen wir Szenen in statischen Hintergrund, Boden und dynamische Objekte, um gezielte Modellierungsstrategien einzusetzen: (1) Der Boden wird explizit als dominierendes strukturelles Element rekonstruiert, was die Konsistenz über große Flächen erheblich verbessert; (2) Dynamische Fahrzeuge werden getrennt modelliert, um Bewegungsmuster der Besetztheit präziser zu erfassen. Umfangreiche Experimente auf dem Waymo-Datensatz zeigen, dass GS-Occ3D Ergebnisse auf höchstem Niveau bei der geometrischen Rekonstruktion erzielt. Durch die Erstellung von vision-basierten binären Besetztheitslabels aus vielfältigen urbanen Szenen demonstrieren wir deren Wirksamkeit für nachgeschaltete Besetztheitsmodelle auf Occ3D-Waymo sowie eine überlegene Zero-Shot-Verallgemeinerung auf Occ3D-nuScenes. Dies unterstreicht das Potenzial einer großskaligen, vision-basierten Besetztheitsrekonstruktion als neue Paradigmen für skalierbare Auto-Labeling-Ansätze. Projektseite: this https URL