vor 2 Monaten

3D-Szenen durch das Lernen von Mensch-Szene-Interaktion bevölkern

Mohamed Hassan; Partha Ghosh; Joachim Tesch; Dimitrios Tzionas; Michael J. Black

Abstract

Menschen leben in einem dreidimensionalen Raum und interagieren ständig mit ihm, um Aufgaben auszuführen. Diese Interaktionen beinhalten semantisch bedeutsame physische Berührungen zwischen Oberflächen. Unser Ziel ist es, zu lernen, wie Menschen mit Szenen interagieren, und dies zu nutzen, um virtuelle Charaktere die gleiche Fähigkeit zu verleihen. Dazu stellen wir ein neues Modell für die Interaktion von Mensch und Szene (HSI) vor, das proximale Beziehungen kodiert und als POSA (für "Pose with prOximitieS and contActs") bezeichnet wird. Die Darstellung der Interaktion ist körperzentriert, was es ermöglicht, auf neue Szenen zu generalisieren. Insbesondere erweitert POSA das parametrische menschliche Körpermodell SMPL-X so, dass für jeden Netzwerksknoten (a) die Wahrscheinlichkeit des Kontakts mit der Szeneoberfläche und (b) das entsprechende semantische Szenenlabel kodiert werden. Wir lernen POSA mit einem VAE (Variational Autoencoder), das auf den SMPL-X-Knoten konditioniert ist, und trainieren es anhand des PROX-Datensatzes, der SMPL-X-Netze von Personen enthält, die mit 3D-Szenen interagieren, sowie den entsprechenden Szenensemantiken aus dem PROX-E-Datensatz. Wir demonstrieren den Wert von POSA anhand zweier Anwendungen. Erstens platzieren wir automatisch 3D-Scans von Personen in Szenen. Hierbei verwenden wir ein an den Scan angepasstes SMPL-X-Modell als Proxy und suchen dann dessen wahrscheinlichste Position im 3D-Raum. POSA bietet eine effektive Darstellung zur Suche nach "Affordances" in der Szene, die den wahrscheinlichen Kontaktbeziehungen dieser Haltung entsprechen. Eine perzeptuelle Studie zeigt erhebliche Verbesserungen im Vergleich zum Stand der Technik bei dieser Aufgabe. Zweitens zeigen wir, dass die gelernte Darstellung der Körperszene-Interaktion durch POSA eine monokulare Schätzung der menschlichen Haltung unterstützt, die konsistent mit einer 3D-Szene ist und sich ebenfalls am Stand der Technik verbessert. Unser Modell und Code sind für Forschungszwecke unter https://posa.is.tue.mpg.de verfügbar.