HybridCap : Captage monocular aidé par l'inertie de mouvements humains complexes

La capture de mouvement 3D monoculaire (mocap) présente de nombreux avantages pour diverses applications. Toutefois, l’utilisation d’une seule caméra peine souvent à gérer les occlusions de différentes parties du corps, limitant ainsi son efficacité à la capture de mouvements relativement simples. Nous proposons une technique légère de mocap hybride, nommée HybridCap, qui enrichit la caméra avec seulement 4 unités de mesure inertielle (IMU) au sein d’un cadre d’apprentissage et d’optimisation. Nous utilisons tout d’abord un module d’inférence hiérarchique et faiblement supervisé basé sur des blocs coopératifs à unités récurrentes à portes (GRU), servant de traqueurs pour les membres, le tronc et la racine, ainsi qu’un solveur d’inverse kinematics. Notre réseau réduit efficacement l’espace de recherche des mouvements plausibles grâce à une estimation de posture de grossière à fine, permettant ainsi de traiter des mouvements complexes avec une haute efficacité. Nous avons également développé une stratégie d’optimisation hybride combinant des signaux inertielles et des informations visuelles afin d’améliorer la précision du suivi. Des expériences étendues sur divers jeux de données démontrent que HybridCap parvient à gérer robustement des mouvements exigeants, allant des exercices de fitness aux danses latines. Elle atteint également une performance en temps réel allant jusqu’à 60 fps, tout en offrant une précision au niveau des meilleures méthodes actuelles.