LED2-Net: Monooculare 360-Grad-Layout-Schätzung durch differenzierbares Tiefenrendering

Obwohl bei der Schätzungen von Raumlayouts erhebliche Fortschritte gemacht wurden, zielen die meisten Methoden darauf ab, den Verlust in den 2D-Pixelkoordinaten zu reduzieren, anstatt die räumliche Struktur des Raumes im 3D-Raum auszunutzen. Um das Raumlayout im 3D-Raum zu rekonstruieren, formulieren wir die Aufgabe der 360-Layout-Schätzung als Problem der Tiefenschätzung auf der Horizontlinie eines Panoramas. Insbesondere schlagen wir ein differenzierbares Tiefenrendering-Verfahren (Differentiable Depth Rendering) vor, um die Umwandlung von Layout zu Tiefenschätzung differenzierbar zu gestalten. Dies ermöglicht es unserem vorgeschlagenen Modell, end-to-end trainiert zu werden und die 3D-geometrischen Informationen zu nutzen, ohne dass die tatsächliche Tiefenwahrheit bereitgestellt werden muss. Unsere Methode erzielt den aktuellen Stand der Technik (state-of-the-art performance) auf zahlreichen Benchmark-Datensätzen für 360-Layouts. Darüber hinaus ermöglicht unsere Formulierung einen Vortrainingschritt auf dem Tiefendatensatz, was die Generalisierungsfähigkeit unseres Layoutschätzungsmodells weiter verbessert.