UniOcc : Unification de la prédiction d'occupation 3D centrée sur la vision avec le rendu géométrique et sémantique

Dans ce rapport technique, nous présentons notre solution, nommée UniOCC, pour la piste de prédiction d'occupation 3D axée sur la vision dans le défi du nuScenes Open Dataset à CVPR 2023. Les méthodes existantes de prédiction d'occupation se concentrent principalement sur l'optimisation des caractéristiques projetées dans l'espace volumique 3D en utilisant des labels d'occupation 3D. Cependant, le processus de génération de ces labels est complexe et coûteux (en s'appuyant sur des annotations sémantiques 3D), et limité par la résolution des voxels, ils ne peuvent pas fournir des sémantiques spatiales fines. Pour remédier à cette limitation, nous proposons une nouvelle méthode de prédiction d'occupation unifiée (UniOcc), imposant explicitement une contrainte géométrique spatiale et complétant la supervision sémantique fine grâce au rendu par rayon volumique. Notre méthode améliore considérablement les performances du modèle et montre un potentiel prometteur pour réduire les coûts d'annotation humaine. Étant donné la nature fastidieuse de l'annotation de l'occupation 3D, nous introduisons également un cadre professeur-élève sensible à la profondeur (Depth-aware Teacher Student, DTS) pour améliorer la précision de la prédiction en utilisant des données non étiquetées. Notre solution atteint un mIoU de 51,27\% sur le classement officiel avec un seul modèle, se classant 3ème dans ce défi.