Kooperative holistische Szeneverstehens: Vereinigung der 3D-Objekt-, Layout- und Kamerapositionsschätzung

Die holistische 3D-Innenraumszene-Verstehens bezieht sich auf die gemeinsame Rekonstruktion von i) Objektbegrenzungsboxen, ii) Raumlayout und iii) Kameraposition, alles in 3D. Die bestehenden Methoden sind entweder ineffektiv oder behandeln das Problem nur teilweise. In dieser Arbeit schlagen wir ein End-to-End-Modell vor, das alle drei Aufgaben gleichzeitig in Echtzeit löst, wenn nur ein einzelnes RGB-Bild gegeben ist. Das Wesentliche der vorgeschlagenen Methode besteht darin, die Vorhersage durch i) Parametrisierung der Ziele (z.B. 3D-Boxen) anstelle einer direkten Schätzung der Ziele zu verbessern und ii) kooperativen Training über verschiedene Module hinweg im Gegensatz zum individuellen Training dieser Module. Speziell parametrisieren wir die 3D-Objektbegrenzungsboxen durch die Vorhersagen aus mehreren Modulen, nämlich der 3D-Kameraposition und den Objekteigenschaften. Die vorgeschlagene Methode bietet zwei wesentliche Vorteile: i) Die Parametrisierung hilft dabei, die Konsistenz zwischen dem 2D-Bild und der 3D-Welt aufrechtzuerhalten, was die Vorhersagevarianzen in den 3D-Koordinaten erheblich reduziert. ii) Anforderungen können an die Parametrisierung gestellt werden, um verschiedene Module gleichzeitig zu trainieren. Wir bezeichnen diese Anforderungen als „kooperative Verlustfunktionen“ (cooperative losses), da sie das gemeinsame Training und die Inferenz ermöglichen. Wir verwenden drei kooperative Verlustfunktionen für 3D-Begrenzungsboxen, 2D-Projektionen und physikalische Anforderungen, um eine geometrisch konsistente und physikalisch plausible 3D-Szene zu schätzen. Experimente mit dem SUN RGB-D-Datensatz zeigen, dass die vorgeschlagene Methode signifikant bessere Ergebnisse als frühere Ansätze bei der 3D-Objekterkennung, der 3D-Raumlayout-Schätzung, der 3D-Kamerapositionsschätzung und dem holistischen Szeneverstehen liefert.