FrankMocap : Capture rapide du mouvement 3D de la main et du corps à partir d'une seule vue par régression et intégration

Bien que la nuance essentielle du mouvement humain soit souvent exprimée par une combinaison de mouvements corporels et de gestes des mains, les approches actuelles de capture de mouvement monoculaire se concentrent principalement soit sur la capture du mouvement du corps tout en ignorant les parties des mains, soit sur la capture du mouvement des mains sans tenir compte du mouvement du corps. Dans cet article, nous présentons FrankMocap, un système de capture de mouvement capable d’estimer simultanément le mouvement 3D des mains et du corps à partir d’images monoculaires prises dans des environnements réels (in-the-wild), avec une vitesse plus élevée (9,5 fps) et une précision supérieure à celle des méthodes antérieures. Notre méthode fonctionne en quasi-temps réel (9,5 fps) et produit des sorties de capture de mouvement 3D du corps et des mains sous la forme d’une structure paramétrique unifiée. L’objectif de notre approche est de capturer en même temps le mouvement 3D du corps et des mains à partir de vidéos monoculaires complexes prises dans des environnements réels. Pour construire FrankMocap, nous avons développé une méthode de capture de mouvement 3D des mains monoculaire de pointe en s’appuyant sur la partie main du modèle paramétrique du corps entier (SMPL-X). Notre sortie de capture du mouvement 3D des mains peut être intégrée efficacement aux résultats de capture du mouvement du corps monoculaire, permettant ainsi d’obtenir des résultats complets de mouvement corporel dans une structure paramétrique unifiée. Nous démontrons les performances de pointe de notre système de capture du mouvement des mains sur des benchmarks publics, et illustrons la qualité élevée de nos résultats de capture du mouvement du corps entier dans divers scénarios réels complexes, y compris dans une démonstration en direct.