AtlantaNet : Inférer la disposition intérieure 3D à partir d'une seule image 360(∘) au-delà de l'hypothèse du monde de Manhattan

Nous introduisons une nouvelle approche end-to-end pour prédire une disposition 3D d’une pièce à partir d’une seule image panoramique. Contrairement aux méthodes les plus récentes de pointe, notre méthode n’est pas limitée aux environnements du type Manhattan World, et permet de reconstruire des pièces délimitées par des murs verticaux qui ne forment pas nécessairement des angles droits ou qui sont courbés — c’est-à-dire des modèles du type Atlanta World. Dans notre approche, nous projetons l’image panoramique d’origine, alignée selon la gravité, sur deux plans horizontaux, l’un situé au-dessus et l’autre au-dessous de la caméra. Cette représentation encode toutes les informations nécessaires pour récupérer les surfaces 3D de la pièce selon le modèle Atlanta World sous la forme d’un emplacement 2D (footprint) sur le plan de sol et d’une hauteur de pièce. Pour prédire la disposition 3D, nous proposons une architecture de réseau neuronal encoder-décoder, exploitant des réseaux de neurones récurrents (RNN) afin de capturer des motifs géométriques à longue portée, et mettant à profit une stratégie d’entraînement personnalisée fondée sur des connaissances spécifiques au domaine. Les résultats expérimentaux montrent que notre méthode surpasser les solutions de pointe en termes de précision de prédiction, en particulier dans les cas de dispositions complexes de murs ou de contours de murs courbés.