Complétion sémantique de scène à partir d'une seule image de profondeur

Ce travail se concentre sur le complétion sémantique de scène, une tâche visant à produire une représentation complète en 3D des voxels d'occupation volumétrique et des étiquettes sémantiques pour une scène à partir d'une observation de carte de profondeur mono-vue. Les travaux précédents ont considéré le complétion de scène et l'étiquetage sémantique des cartes de profondeur séparément. Cependant, nous observons que ces deux problèmes sont étroitement liés. Pour exploiter la nature couplée de ces deux tâches, nous introduisons le réseau de complétion sémantique de scène (SSCNet), un réseau convolutif 3D bout-à-bout qui prend une seule image de profondeur en entrée et produit simultanément les étiquettes d'occupation et sémantiques pour tous les voxels dans le frustum de vue de la caméra. Notre réseau utilise un module contextuel 3D basé sur la dilatation pour élargir efficacement le champ récepteur et permettre l'apprentissage du contexte 3D. Pour entraîner notre réseau, nous avons construit SUNCG - un ensemble de données à grande échelle créé manuellement comprenant des scènes 3D synthétiques avec des annotations volumétriques denses. Nos expériences montrent que le modèle conjoint surpasse les méthodes traitant chaque tâche individuellement et surpasse également les approches alternatives dans la tâche de complétion sémantique de scène.