OccDepth : une méthode consciente de la profondeur pour la complétion sémantique 3D des scènes

La Complétion Sémantique 3D de Scènes (SSC, 3D Semantic Scene Completion) peut fournir des représentations géométriques denses et sémantiques de la scène, qui trouvent des applications dans les systèmes de conduite autonome et les robots. Il est particulièrement difficile d’estimer la géométrie complète et les informations sémantiques d’une scène à partir uniquement d’images visuelles, et une information de profondeur précise est cruciale pour restaurer la structure géométrique 3D. Dans cet article, nous proposons la première méthode de SSC stéréo, nommée OccDepth, qui exploite pleinement les informations implicites de profondeur issues d’images stéréo (ou d’images RGBD) afin d’aider à la reconstruction des structures géométriques 3D. Le module de fusion de caractéristiques douces stéréo (Stereo-SFA) est introduit pour mieux fusionner les caractéristiques 3D sensibles à la profondeur en apprenant implicitement la corrélation entre les images stéréo. En particulier, lorsque les entrées sont des images RGBD, des images stéréo virtuelles peuvent être générées à partir de l’image RGB originale et de la carte de profondeur. Par ailleurs, le module Occupancy Aware Depth (OAD) permet d’obtenir des caractéristiques 3D sensibles à la géométrie grâce à une distillation de connaissances utilisant des modèles de profondeur pré-entraînés. En outre, nous proposons une version révisée du benchmark TartanAir, nommée SemanticTartanAir, afin de tester plus efficacement notre méthode OccDepth sur la tâche de SSC. Comparée à la méthode de SSC actuellement la plus avancée basée sur des images RGB, des expériences étendues sur le jeu de données SemanticKITTI montrent que notre méthode OccDepth atteint des performances supérieures, avec une amélioration de +4,82 % en mIoU, dont +2,49 % proviennent des images stéréo et +2,33 % de notre méthode proposée sensibles à la profondeur. Le code source et les modèles entraînés sont disponibles à l’adresse suivante : https://github.com/megvii-research/OccDepth.