LayoutNet: Rekonstruktion der 3D-Raumstruktur aus einem einzelnen RGB-Bild

Wir schlagen einen Algorithmus vor, der die Raumstruktur aus einem einzelnen Bild vorhersagen kann, der sowohl für Panoramabilder als auch für perspektivische Bilder und sowohl für kubische Raumstrukturen als auch für allgemeinere Raumstrukturen (z.B. L-förmige Räume) anwendbar ist. Unser Verfahren arbeitet direkt auf dem Panoramabild, anstatt es in perspektivische Bilder zu zerlegen, wie dies in jüngsten Arbeiten üblich ist. Unsere Netzwerkarchitektur ähnelt der von RoomNet, jedoch zeigen wir Verbesserungen durch die Ausrichtung des Bildes basierend auf Fluchtpunkten, die Vorhersage mehrerer Layout-Elemente (Ecken, Grenzen, Größe und Verschiebung) und das Anpassen eines eingeschränkten Manhattan-Layouts an die resultierenden Vorhersagen. Unser Verfahren erzielt vergleichbare Ergebnisse in Bezug auf Geschwindigkeit und Genauigkeit im Vergleich zu anderen existierenden Arbeiten über Panoramabilder, erreicht eine der besten Genauigkeiten für perspektivische Bilder und kann sowohl kubische als auch allgemeinere Manhattan-Layouts verarbeiten.