HyperAIHyperAI
il y a 2 mois

Réseaux de convolution graphique et temporelle pour l’estimation de la posture 3D de plusieurs personnes dans des vidéos monoculaires

Cheng, Yu ; Wang, Bo ; Yang, Bo ; Tan, Robby T.
Réseaux de convolution graphique et temporelle pour l’estimation de la posture 3D de plusieurs personnes dans des vidéos monoculaires
Résumé

Malgré les récentes avancées, l'estimation de la posture 3D de plusieurs personnes à partir de vidéos monoculaires reste un défi en raison du problème courant d'informations manquantes, causé par l'occlusion, des cibles partiellement hors champ et une détection imparfaite des personnes. Pour résoudre ce problème, nous proposons un cadre novateur intégrant des réseaux de convolution graphique (GCNs) et des réseaux de convolution temporelle (TCNs) afin d'estimer robustement les postures 3D multi-personnes centrées sur la caméra sans nécessiter de paramètres de caméra. Plus particulièrement, nous introduisons un GCN articulaire humain, qui, contrairement aux GCNs existants, est basé sur un graphe orienté utilisant les scores de confiance du estimateur de posture 2D pour améliorer les résultats d'estimation de la posture. Nous présentons également un GCN osseux humain, qui modélise les connexions osseuses et fournit plus d'informations au-delà des articulations humaines. Ces deux GCNs travaillent ensemble pour estimer les postures 3D spatiales frame par frame et peuvent utiliser à la fois les informations visibles sur les articulations et les os dans le cadre cible pour estimer les informations manquantes ou occultées des parties du corps humain. Pour affiner davantage l'estimation de la posture 3D, nous utilisons nos réseaux de convolution temporelle (TCNs) pour imposer des contraintes temporelles et dynamiques humaines. Nous utilisons un TCN articulaire pour estimer les postures 3D centrées sur la personne à travers les cadres, et proposons un TCN vitesse pour estimer la vitesse des articulations 3D afin d'assurer la cohérence de l'estimation de la posture 3D dans les cadres consécutifs. Enfin, pour estimer les postures 3D humaines pour plusieurs personnes, nous proposons un TCN racine qui estime les postures 3D centrées sur la caméra sans nécessiter de paramètres de caméra. Les évaluations quantitatives et qualitatives démontrent l'efficacité de la méthode proposée.