HorizonNet: Lernen von Raumlayout mit eindimensionaler Darstellung und Pano-Stretch-Datenverstärkung

Wir stellen einen neuen Ansatz zur Schätzung der 3D-Raumlayout aus einem einzelnen panoramischen Bild vor. Das Raumlayout wird als drei 1D-Vektoren dargestellt, die an jeder Bildspalte die Grenzpositionen von Boden-Wand und Decke-Wand sowie die Existenz von Wand-Wand-Grenzen kodieren. Das vorgeschlagene Netzwerk, HorizonNet, das für die Vorhersage des 1D-Layouts trainiert wurde, übertrifft bisherige state-of-the-art-Ansätze (Stand der Technik). Der entwickelte Nachbearbeitungsprozess zur Rekonstruktion von 3D-Raumlayouts aus den 1D-Vorhersagen kann die Raumform mit geringem Rechenaufwand automatisch ableiten – er benötigt weniger als 20 ms für ein Panoramabild, während frühere Arbeiten möglicherweise Dutzende von Sekunden benötigen. Wir schlagen zudem eine Pano-Stretch-Datenverstärkung (Pano Stretch Data Augmentation) vor, die das Panoramadatenmaterial vielfältiger gestalten kann und auf andere panorama-bezogene Lernaufgaben angewendet werden kann. Aufgrund der begrenzten Daten für nicht-kubische Layouts haben wir 65 allgemeine Layouts aus dem aktuellen Datensatz neu beschriftet, um Feinabstimmungen durchzuführen. Unser Ansatz zeigt gute Leistungen bei allgemeinen Layouts sowohl durch qualitative Ergebnisse als auch durch Kreuzvalidierung.