Apprentissage des dynamiques humaines 3D à partir de vidéos

À partir d'une image d'une personne en mouvement, nous pouvons facilement deviner le mouvement 3D de cette personne dans l'immédiat passé et futur. Cela est dû au fait que nous disposons d'un modèle mental des dynamiques humaines en 3D, acquis par l'observation de séquences visuelles de personnes en mouvement. Nous présentons un cadre qui peut apprendre une représentation similaire des dynamiques 3D des humains à partir de vidéos grâce à une encodage temporelle simple mais efficace des caractéristiques d'image. Lors des tests, la représentation temporelle apprise permet de générer des prédictions de maillage 3D fluides à partir des vidéos. À partir d'une seule image, notre modèle peut non seulement récupérer le maillage 3D actuel, mais aussi son mouvement 3D passé et futur. Notre approche est conçue pour pouvoir apprendre à partir de vidéos annotées en pose 2D de manière semi-supervisée. Bien que les données annotées soient toujours limitées, des millions de vidéos sont quotidiennement téléchargées sur Internet. Dans ce travail, nous exploitons cette source massive de données non étiquetées en formant notre modèle sur des vidéos non étiquetées avec une pose 2D pseudo-vérité-terrain obtenue à partir d'un détecteur de pose 2D prêt à l'emploi. Nos expériences montrent qu'ajouter plus de vidéos avec une pose 2D pseudo-vérité-terrain améliore monotiquement les performances de prédiction 3D. Nous évaluons notre modèle, Human Mesh and Motion Recovery (HMMR), sur le récent ensemble de données difficile « 3D Poses in the Wild » et obtenons des performances de pointe sur la tâche de prédiction 3D sans aucun affinage. Le site web du projet, contenant les vidéos, le code et les données, se trouve à l'adresse suivante : https://akanazawa.github.io/human_dynamics/.