HyperAIHyperAI
il y a 2 mois

Capture du mouvement de chaque articulation : estimation de la posture et de la forme humaines en 3D avec des jetons indépendants

Yang, Sen ; Heng, Wen ; Liu, Gang ; Luo, Guozhong ; Yang, Wankou ; Yu, Gang
Capture du mouvement de chaque articulation : estimation de la posture et de la forme humaines en 3D avec des jetons indépendants
Résumé

Dans cet article, nous présentons une nouvelle méthode pour estimer la posture et la forme humaines en 3D à partir de vidéos monoculaires. Cette tâche nécessite de récupérer directement l'alignement des pixels de la posture humaine en 3D et de la forme du corps à partir d'images ou de vidéos monoculaires, ce qui est difficile en raison de son ambiguïté inhérente. Pour améliorer la précision, les méthodes existantes s'appuient fortement sur une posture et une forme moyennes initialisées comme estimations a priori, ainsi que sur une régression paramétrique avec un retour d'erreur itératif. De plus, les approches basées sur des vidéos modélisent le changement global des caractéristiques au niveau des images pour améliorer temporellement les caractéristiques mono-image, mais échouent à capturer le mouvement rotatif au niveau des articulations et ne peuvent pas garantir la cohérence temporelle locale.Pour résoudre ces problèmes, nous proposons un nouveau modèle basé sur le Transformer avec un design de jetons indépendants. Premièrement, nous introduisons trois types de jetons indépendants des caractéristiques d'image : \textit{jetons de rotation articulaire}, \textit{jeton de forme} et \textit{jeton de caméra}. En interagissant progressivement avec les caractéristiques d'image via les couches du Transformer, ces jetons apprennent à encoder les connaissances a priori des rotations articulaires en 3D, de la forme corporelle et des informations positionnelles à partir de données à grande échelle, et sont mis à jour pour estimer les paramètres SMPL conditionnés par une image donnée. Deuxièmement, grâce à la représentation basée sur les jetons proposée, nous utilisons un modèle temporel pour se concentrer sur la capture des informations temporelles rotatives de chaque articulation, ce qui contribue empiriquement à prévenir les grandes oscillations dans les parties locales.Bien que conceptuellement simple, la méthode proposée obtient des performances supérieures sur les jeux de données 3DPW et Human3.6M. En utilisant les architectures ResNet-50 et Transformer, elle atteint une erreur de 42,0 mm selon la métrique PA-MPJPE (Protocol Alignment - Mean Per Joint Position Error) du jeu de données 3DPW difficile, surpassant largement ses homologues d'avant-garde. Le code sera rendu publiquement disponible sur https://github.com/yangsenius/INT_HMR_Model.

Capture du mouvement de chaque articulation : estimation de la posture et de la forme humaines en 3D avec des jetons indépendants | Articles de recherche récents | HyperAI