Estimation incarnée de la posture humaine sensible à la scène

Nous proposons une estimation de la posture humaine incarnée et consciente de la scène, dans laquelle nous estimons les postures 3D à partir de la proprioception et de la conscience de la scène d’un agent simulé, ainsi que d’observations externes en troisième personne. Contrairement aux méthodes précédentes qui recourent fréquemment à une optimisation multistade, à une inférence non causale ou à une modélisation complexe des contacts pour estimer la posture humaine et les interactions entre l’humain et la scène, notre approche est monostade, causale, et permet de restaurer des postures humaines 3D globales dans un environnement simulé. Étant donné que les observations 2D en troisième personne sont couplées à la pose de la caméra, nous proposons de désentrelacer la pose de la caméra et d’utiliser une graduelle de projection multi-étapes définie dans le cadre de coordonnées global comme indicateur de mouvement pour notre agent incarné. En exploitant une simulation physique et des scènes pré-numérisées (par exemple, maillages 3D), nous faisons évoluer notre agent dans des environnements du quotidien (bibliothèque, bureau, chambre, etc.) et équipons cet agent de capteurs environnementaux lui permettant de naviguer intelligemment et d’interagir avec la géométrie de la scène. Notre méthode ne repose que sur des points clés 2D et peut être entraînée sur des jeux de données synthétiques dérivés de bases de données populaires de mouvements humains. Pour évaluer notre méthode, nous utilisons les jeux de données H36M et PROX, et obtenons une estimation de posture de haute qualité sur le jeu de données exigeant PROX, sans jamais avoir utilisé de séquences de mouvement PROX pour l’entraînement. Le code source et des vidéos sont disponibles sur la page du projet.