DuLa-Net: Ein Doppelprojektionsnetzwerk zur Schätzung von Raumlayouts aus einem einzelnen RGB-Panorama

Wir präsentieren ein tiefes Lernframework, genannt DuLa-Net, das Manhattan-Welt 3D-Raumlayouts aus einem einzelnen RGB-Panorama vorhersagen kann. Um eine höhere Vorhersagegenauigkeit zu erzielen, nutzt unsere Methode gleichzeitig zwei Projektionen des Panoramas, nämlich die equirektangulare Panoramansicht und die perspektivische Deckensicht, die jeweils unterschiedliche Hinweise auf die Raumlayouts enthalten. Unsere Netzwerkarchitektur besteht aus zwei Encoder-Decoder-Zweigen zur Analyse jeder der beiden Sichten. Zudem schlagen wir eine neuartige Merkmalsfusionstruktur vor, um die beiden Zweige zu verbinden, die dann gemeinsam trainiert werden, um 2D-Bodenpläne und Layouthöhen zu vorhersagen. Um komplexere Raumlayouts zu lernen, führen wir den Realtor360-Datensatz ein, der Panoramen von Manhattan-Welt-Raumlayouts mit unterschiedlichen Anzahlen von Ecken enthält. Experimentelle Ergebnisse zeigen, dass unsere Arbeit hinsichtlich Vorhersagegenauigkeit und Leistung den aktuellen Stand der Technik übertrifft, insbesondere in Räumen mit nicht-kubischen Layouts.