HyperAIHyperAI

Command Palette

Search for a command to run...

Inférence vidéo à deux voies profondes pour l'estimation de la posture et de la forme du corps humain

Ziwen Li Bo Xu Han Huang Cheng Lu Yandong Guo

Résumé

Plusieurs algorithmes de estimation de posture et de forme 3D basés sur des vidéos ont été proposés afin de résoudre l’incohérence temporelle des méthodes basées sur une seule image. Toutefois, obtenir une reconstruction stable et précise reste un défi. Dans cet article, nous proposons un nouveau cadre, appelé Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE), permettant de générer une posture 3D et un maillage humain à partir de vidéos RGB. Nous reformulons cette tâche comme un problème multi-modale en fusionnant les données RGB et les flux optiques afin d’obtenir une estimation plus fiable. Afin d’exploiter pleinement les deux modalités sensorielles (RGB ou flux optique), nous entraînons un réseau temporel à deux voies basé sur un modèle transformer pour prédire les paramètres SMPL. La modalité complémentaire, le flux optique, contribue à maintenir la cohérence temporelle en exploitant les informations de mouvement entre deux cadres consécutifs. L’algorithme proposé est évalué de manière exhaustive sur les jeux de données Human3.6 et 3DPW. Les résultats expérimentaux montrent qu’il surpasse significativement les méthodes de pointe existantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Inférence vidéo à deux voies profondes pour l'estimation de la posture et de la forme du corps humain | Articles | HyperAI