HyperAIHyperAI
il y a 2 mois

Raffinement Temporel pour la Récupération de la Pose et de la Forme Humaine à Partir de Vidéos

Ming Chen; Yan Zhou; Weihua Jian; Pengfei Wan; Zhongyuan Wang
Raffinement Temporel pour la Récupération de la Pose et de la Forme Humaine à Partir de Vidéos
Résumé

Bien que des progrès significatifs aient été réalisés ces dernières années dans la récupération de la posture et de la forme humaine à partir d'images RGB monoculaires, l'obtention d'un mouvement humain 3D avec une haute précision et une cohérence temporelle à partir de vidéos reste un défi. Les méthodes existantes basées sur les vidéos tendent à reconstruire le mouvement humain à partir de caractéristiques globales d'image, qui manquent de capacité de représentation détaillée et limitent la précision de la reconstruction. Dans cet article, nous proposons un réseau de raffinement temporellement conscient (TAR) pour explorer simultanément les caractéristiques globales et locales temporellement conscientes des images afin d'obtenir une récupération précise de la posture et de la forme. Premièrement, un encodeur global transformer est introduit pour extraire des caractéristiques globales temporelles à partir de séquences de caractéristiques statiques. Deuxièmement, un réseau ConvGRU bidirectionnel prend en entrée une séquence de cartes de caractéristiques à haute résolution et produit des cartes de caractéristiques locales temporelles qui maintiennent une haute résolution et capturent le mouvement local du corps humain. Enfin, un module de raffinement récurrent met à jour itérativement les paramètres estimés du modèle SMPL en utilisant tant les informations globales que locales temporelles pour obtenir des résultats précis et fluides. Des expériences approfondies montrent que notre TAR obtient des résultats plus précis que les méthodes précédentes les plus avancées sur des benchmarks populaires tels que 3DPW, MPI-INF-3DHP et Human3.6M.