HyperAIHyperAI
vor 2 Monaten

Ganzheitliches 3D-Szenenparsen und -rekonstruieren aus einem einzelnen RGB-Bild

Siyuan Huang; Siyuan Qi; Yixin Zhu; Yinxue Xiao; Yuanlu Xu; Song-Chun Zhu
Ganzheitliches 3D-Szenenparsen und -rekonstruieren aus einem einzelnen RGB-Bild
Abstract

Wir schlagen einen computergestützten Rahmen vor, um ein einzelnes RGB-Bild gemeinsam zu analysieren und eine umfassende 3D-Konfiguration aus einer Reihe von CAD-Modellen unter Verwendung eines stochastischen Grammarmodells zu rekonstruieren. Insbesondere führen wir eine Holistische Szengrammatik (HSG) ein, um die Struktur der 3D-Szene darzustellen, die eine gemeinsame Verteilung über den funktionalen und geometrischen Raum von Innenräumen charakterisiert. Die vorgeschlagene HSG erfasst drei wesentliche und oft latente Dimensionen von Innenräumen: i) latenter menschlicher Kontext, der die Nutzbarkeit und Funktionalität einer Raumgestaltung beschreibt, ii) geometrische Restriktionen über die Szenekonfigurationen und iii) physikalische Restriktionen, die eine physikalisch plausibele Analyse und Rekonstruktion gewährleisten. Wir lösen dieses Problem der gemeinsamen Analyse und Rekonstruktion durch eine Analyse-per-Synthese-Methode, wobei wir die Unterschiede zwischen dem Eingangsbild und den durch unsere 3D-Darstellung generierten gerenderten Bildern minimieren wollen, im Bereich von Tiefeninformation, Oberflächennormalen und Objektsegmentierungskarte. Die optimale Konfiguration, dargestellt durch einen Parse-Graphen, wird unter Verwendung von Markov-Ketten-Monte-Carlo-Verfahren (MCMC) abgeleitet, das effizient durch den nicht differenzierbaren Lösungsraum navigiert und gleichzeitig die Objektlokalisation, das 3D-Layout sowie den verborgenen menschlichen Kontext optimiert. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Algorithmus die Generalisierungsfähigkeit verbessert und bei der Schätzung des 3D-Layouts, der 3D-Objekterkennung sowie dem umfassenden Verständnis von Szenen deutlich bessere Leistungen als frühere Methoden erzielt.

Ganzheitliches 3D-Szenenparsen und -rekonstruieren aus einem einzelnen RGB-Bild | Neueste Forschungsarbeiten | HyperAI