Total3DUnderstanding: Gemeinsame Layout-, Objektpose- und Mesh-Rekonstruktion für Innenräume aus einem einzigen Bild

Die semantische Rekonstruktion von Innenräumen bezieht sich sowohl auf das Szenenverstehen als auch auf die Objektrekonstruktion. Bisherige Ansätze behandeln entweder nur einen Teil dieses Problems oder konzentrieren sich auf unabhängige Objekte. In diesem Paper schließen wir die Lücke zwischen Verstehen und Rekonstruktion und stellen eine end-to-end-Lösung vor, die gleichzeitig Raumlayout, 3D-Objektkästchen und Objekt-Meshes aus einem einzigen Bild rekonstruiert. Anstatt Szenenverstehen und Objektrekonstruktion getrennt zu lösen, basiert unsere Methode auf einem ganzheitlichen Szenenkontext und entwickelt eine grob-zu-fein-Hierarchie mit drei Komponenten: 1. Raumlayout mit Kamerapose; 2. 3D-Objektkästchen; 3. Objekt-Meshes. Wir argumentieren, dass das Verständnis des Kontexts jeder Komponente die Aufgabe der Analyse der anderen Komponenten unterstützen kann, was eine gemeinsame Interpretation und Rekonstruktion ermöglicht. Experimente auf den Datensätzen SUN RGB-D und Pix3D zeigen, dass unsere Methode beständig über bestehende Ansätze bei der Schätzung von Innenräumen, der 3D-Objektdetektion und der Mesh-Rekonstruktion hinausweist.