Réseau de volume de vue pour le complétion sémantique de scène à partir d'une seule image de profondeur

Nous présentons un réseau neuronal convolutif de volume de vue (VVNet) pour inférer l'occupation et les étiquettes sémantiques d'une scène 3D volumétrique à partir d'une seule image de profondeur. Le VVNet concatène un CNN de vue 2D et un CNN de volume 3D avec une couche de projection différentiable. Étant donné une seule image RGBD, notre méthode extrait les caractéristiques géométriques détaillées de l'image de profondeur d'entrée avec un CNN de vue 2D, puis projette ces caractéristiques dans un volume 3D en fonction de la carte de profondeur d'entrée via une couche de projection. Ensuite, nous apprenons les informations contextuelles 3D de la scène avec un CNN de volume 3D pour calculer l'occupation volumétrique et les étiquettes sémantiques du résultat. Grâce à des représentations combinées 2D et 3D, le VVNet réduit efficacement le coût computationnel, permet l'extraction de caractéristiques à partir d'entrées haute résolution multi-canaux, et améliore ainsi considérablement la précision des résultats. Nous validons notre méthode et démontrons son efficacité et sa performance sur les ensembles de données synthétiques SUNCG et réels NYU.