GS-Occ3D : Reprojection de l'occupation uniquement visuelle à grande échelle avec le splatting gaussien

L’occupation est essentielle pour la conduite autonome, fournissant des a priori géométriques fondamentaux pour la perception et la planification. Toutefois, les méthodes existantes s’appuient principalement sur des annotations d’occupation basées sur le LiDAR, ce qui limite leur évolutivité et empêche l’exploitation de vastes quantités de données collectées par la communauté pour l’auto-étiquetage. Pour remédier à ce problème, nous proposons GS-Occ3D, un cadre évolutif basé uniquement sur la vision, capable de reconstruire directement l’occupation. La reconstruction d’occupation à partir de la vision seule soulève des défis importants dus à des points de vue épars, à des éléments scéniques dynamiques, à des occlusions sévères et à des mouvements à long terme. Les méthodes existantes basées sur la vision reposent principalement sur une représentation par maillage, qui souffre de géométries incomplètes et nécessite des traitements postérieurs supplémentaires, limitant ainsi leur évolutivité. Pour surmonter ces limitations, GS-Occ3D optimise une représentation explicite d’occupation à l’aide d’une formulation basée sur une octree et des surfeels gaussiens, garantissant efficacité et évolutivité. En outre, nous décomposons les scènes en arrière-plan statique, sol et objets dynamiques, permettant des stratégies de modélisation adaptées : (1) le sol est reconstruit explicitement comme un élément structurel dominant, améliorant significativement la cohérence sur de grandes surfaces ; (2) les véhicules dynamiques sont modélisés séparément afin de mieux capturer les motifs d’occupation liés au mouvement. Des expériences étendues sur le jeu de données Waymo démontrent que GS-Occ3D atteint des résultats de reconstruction géométrique de pointe. En curant des étiquettes binaires d’occupation basées uniquement sur la vision à partir de scènes urbaines diversifiées, nous montrons leur efficacité pour les modèles d’occupation en aval sur Occ3D-Waymo, ainsi qu’une généralisation zéro-shot supérieure sur Occ3D-nuScenes. Ces résultats mettent en évidence le potentiel de la reconstruction d’occupation à grande échelle basée sur la vision comme nouvelle paradigme pour l’auto-étiquetage évolutif. Page du projet : this https URL