il y a 17 jours

Fusion d’images monoculaires et de signaux IMU épars pour la capture de mouvement humain en temps réel

Shaohua Pan, Qi Ma, Xinyu Yi, Weifeng Hu, Xiong Wang, Xingkang Zhou, Jijunnan Li, Feng Xu

Résumé

Les images RGB ou les signaux inertielles ont chacun été utilisés pour la tâche de capture de mouvement (mocap), mais leur combinaison constitue un sujet nouveau et prometteur. Nous pensons que cette combinaison est complémentaire et capable de surmonter les difficultés inhérentes à l'utilisation d’un seul mode d’entrée, notamment les occlusions, les conditions extrêmes d’éclairage ou de texture, ainsi que les objets hors champ pour la mocap visuelle, ou encore les dérives globales pour la mocap inertielles. À cette fin, nous proposons une méthode qui fusionne des images monoculaires et des accéléromètres/gyromètres à faible densité (sparse IMUs) afin d’obtenir une capture de mouvement humain en temps réel. Notre approche repose sur une stratégie de coordonnées dualisées, permettant d’exploiter pleinement les signaux IMU selon des objectifs distincts dans la tâche de capture de mouvement. Plus précisément, outre une branche qui transforme les signaux IMU dans le système de coordonnées de la caméra afin de les combiner avec les informations visuelles, une autre branche apprend à partir des signaux IMU dans le système de coordonnées du corps racine (root coordinate system), afin d’améliorer l’estimation des poses corporelles. En outre, un mécanisme de rétroaction d’état caché est introduit pour les deux branches, afin de compenser leurs faiblesses respectives dans des cas d’entrée extrêmes. Ainsi, notre méthode peut facilement basculer entre les deux types de signaux ou les combiner de manière adaptative selon les conditions, garantissant ainsi une mocap robuste. Les deux composantes peuvent s’entraider pour améliorer les résultats sous diverses conditions. Des résultats quantitatifs et qualitatifs montrent qu’en concevant soigneusement la méthode de fusion, notre technique dépasse significativement les méthodes de pointe actuelles, qu’elles soient basées sur la vision, sur les IMUs, ou sur une combinaison des deux, tant pour l’estimation de l’orientation globale que pour celle des poses locales. Les codes source sont disponibles à l’adresse suivante pour des usages de recherche : https://shaohua-pan.github.io/robustcap-page/.