HyperAIHyperAI
il y a 17 jours

Inférence vidéo à deux voies profondes pour l'estimation de la posture et de la forme du corps humain

Ziwen Li, Bo Xu, Han Huang, Cheng Lu, Yandong Guo
Inférence vidéo à deux voies profondes pour l'estimation de la posture et de la forme du corps humain
Résumé

Plusieurs algorithmes de estimation de posture et de forme 3D basés sur des vidéos ont été proposés afin de résoudre l’incohérence temporelle des méthodes basées sur une seule image. Toutefois, obtenir une reconstruction stable et précise reste un défi. Dans cet article, nous proposons un nouveau cadre, appelé Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE), permettant de générer une posture 3D et un maillage humain à partir de vidéos RGB. Nous reformulons cette tâche comme un problème multi-modale en fusionnant les données RGB et les flux optiques afin d’obtenir une estimation plus fiable. Afin d’exploiter pleinement les deux modalités sensorielles (RGB ou flux optique), nous entraînons un réseau temporel à deux voies basé sur un modèle transformer pour prédire les paramètres SMPL. La modalité complémentaire, le flux optique, contribue à maintenir la cohérence temporelle en exploitant les informations de mouvement entre deux cadres consécutifs. L’algorithme proposé est évalué de manière exhaustive sur les jeux de données Human3.6 et 3DPW. Les résultats expérimentaux montrent qu’il surpasse significativement les méthodes de pointe existantes.

Inférence vidéo à deux voies profondes pour l'estimation de la posture et de la forme du corps humain | Articles de recherche récents | HyperAI