Atlas : Reconstruction 3D end-to-end de scènes à partir d’images posées

Nous présentons une méthode de reconstruction 3D end-to-end d'une scène, en régressant directement une fonction de distance signée tronquée (TSDF) à partir d'un ensemble d'images RGB orientées. Les approches traditionnelles de reconstruction 3D reposent sur une représentation intermédiaire sous forme de cartes de profondeur avant d'estimer un modèle 3D complet de la scène. Nous supposons qu'une régression directe vers le 3D est plus efficace. Un réseau de neurones convolutif 2D (2D CNN) extrait des caractéristiques de chaque image de manière indépendante, puis ces caractéristiques sont projetées en arrière et accumulées dans un volume de voxels à l'aide des paramètres intrinsèques et extrinsèques de la caméra. Après accumulation, un réseau de neurones convolutif 3D (3D CNN) affine les caractéristiques accumulées et prédit les valeurs de la TSDF. En outre, une segmentation sémantique du modèle 3D est obtenue sans coût computationnel significatif. Cette approche est évaluée sur le jeu de données Scannet, où nous surpassons de manière significative les états de l'art (stéréo multivue profond suivi d'une fusion TSDF traditionnelle), tant du point de vue quantitatif que qualitatif. Nous comparons notre segmentation sémantique 3D aux méthodes antérieures utilisant un capteur de profondeur, car aucune étude antérieure n'a abordé ce problème uniquement à partir d'entrées RGB.