Embodied Scene-aware Human Pose Estimation

Wir schlagen eine körperhafte, szenenbewusste Schätzung menschlicher Körperhaltung vor, bei der 3D-Haltungen auf Basis der Propriozeption und Szenenbewusstheit eines simulierten Agents sowie externer Beobachtungen aus Drittpersonenperspektive geschätzt werden. Im Gegensatz zu vorherigen Ansätzen, die häufig mehrstufige Optimierung, nicht-kausale Inferenz und komplexe Kontaktmodellierung zur Schätzung menschlicher Körperhaltungen und der Interaktion mit der Umgebung verwenden, ist unser Ansatz einstufig, kausal und ermöglicht die Rückgewinnung globaler 3D-Haltungen in einer simulierten Umgebung. Da 2D-Beobachtungen aus Drittpersonenperspektive mit der Kamerapose verknüpft sind, schlagen wir vor, die Kamerapose zu entkoppeln und einen mehrstufigen Projektionsgradienten, definiert im globalen Koordinatensystem, als Bewegungshinweis für unseren körperhaften Agenten zu nutzen. Unter Nutzung einer Physik-Simulation und vorgescannter Szenen (z. B. 3D-Meshes) simulieren wir unseren Agenten in alltäglichen Umgebungen (Bibliothek, Büro, Schlafzimmer usw.) und versehen ihn mit Umweltsensoren, um intelligent durch die geometrischen Strukturen der Szene navigieren und interagieren zu können. Unser Verfahren beruht zudem ausschließlich auf 2D-Knotenpunkten und kann auf synthetischen Datensätzen trainiert werden, die aus gängigen menschlichen Bewegungsdatenbanken abgeleitet sind. Zur Evaluation verwenden wir die etablierten Datensätze H36M und PROX und erreichen eine hochqualitative Schätzung der Körperhaltung, auch auf dem anspruchsvollen PROX-Datensatz – ohne jemals PROX-Bewegungssequenzen im Training einzusetzen. Der Quellcode und Videomaterial sind auf der Projektseite verfügbar.