AtlantaNet: Schätzung der 3D-Innenraumstruktur aus einem einzigen 360(∘)-Bild jenseits der Annahme des Manhattan-Weltmodells

Wir stellen einen neuartigen end-to-end-Ansatz zur Vorhersage einer 3D-Raumstruktur aus einem einzigen panoramischen Bild vor. Im Gegensatz zu jüngsten state-of-the-art-Verfahren ist unsere Methode nicht auf Manhattan-Welt-Umgebungen beschränkt und kann Räume mit vertikalen Wänden rekonstruieren, die keine rechten Winkel bilden oder sogar gekrümmt sind – also sogenannte Atlanta-Welt-Modelle. In unserem Ansatz projizieren wir das ursprüngliche, gravitationsausgerichtete panoramische Bild auf zwei horizontale Ebenen, eine oberhalb und eine unterhalb der Kamera. Diese Darstellung enthält sämtliche Informationen, die zur Rekonstruktion der 3D-Grenzflächen des Atlanta-Welt-Raums erforderlich sind, in Form einer zweidimensionalen Raumkontur auf der Grundrisszeichnung und einer Raumhöhe. Zur Vorhersage der 3D-Layoutstruktur schlagen wir eine Encoder-Decoder-Neuronale Netzwerkarchitektur vor, die rekurrente neuronale Netze (RNNs) nutzt, um langreichweitige geometrische Muster zu erfassen, und eine maßgeschneiderte Trainingsstrategie einsetzt, die auf fachspezifischem Wissen basiert. Die experimentellen Ergebnisse zeigen, dass unser Verfahren die state-of-the-art-Lösungen in Bezug auf die Vorhersagegenauigkeit übertrifft, insbesondere bei komplexen Wandanordnungen oder gekrümmten Wandkonturen.