HyperAIHyperAI
il y a 13 jours

GLA-GCN : Réseau de convolution de graphe adaptatif global-local pour l'estimation de la posture 3D humaine à partir de vidéos monoculaires

Bruce X.B. Yu, Zhi Zhang, Yongxu Liu, Sheng-hua Zhong, Yan Liu, Chang Wen Chen
GLA-GCN : Réseau de convolution de graphe adaptatif global-local pour l'estimation de la posture 3D humaine à partir de vidéos monoculaires
Résumé

L’estimation de la posture 3D de l’humain a fait l’objet de recherches pendant plusieurs décennies, avec des résultats prometteurs. L’élévation de la posture 3D (3D human pose lifting) constitue l’une des directions de recherche les plus prometteuses pour atteindre cet objectif, où les données de posture estimée et les données de vérité terrain (ground truth) sont utilisées conjointement pour l’entraînement. Les travaux existants sur l’élévation de posture se concentrent principalement sur l’amélioration des performances de la posture estimée, mais ils se comportent généralement de manière insuffisante lorsqu’ils sont évalués sur des données de vérité terrain. Nous observons qu’il est relativement facile d’améliorer les performances de la posture estimée en préparant des données de posture 2D de haute qualité, par exemple en fin-tunant le modèle de détection 2D ou en utilisant des détecteurs 2D avancés. En conséquence, nous nous concentrons sur l’amélioration de l’élévation de posture 3D à l’aide de données de vérité terrain, dans le but de favoriser, à long terme, l’obtention de données de posture estimée de meilleure qualité. À cette fin, nous proposons dans ce travail un modèle simple mais efficace, nommé Réseau de Convolution Graphique Adaptatif Global-Local (GLA-GCN). Notre GLA-GCN modélise globalement la structure spatio-temporelle via une représentation graphique, tout en récupérant les caractéristiques locales des articulations grâce à des couches connectées individuellement. Pour valider notre conception de modèle, nous menons des expériences approfondies sur trois jeux de données de référence : Human3.6M, HumanEva-I et MPI-INF-3DHP. Les résultats expérimentaux montrent que notre GLA-GCN, lorsqu’il est utilisé avec des poses 2D de vérité terrain, dépasse significativement les méthodes de pointe (avec une réduction d’erreur respectivement de 3 %, 17 % et 14 % sur Human3.6M, HumanEva-I et MPI-INF-3DHP). GitHub : https://github.com/bruceyo/GLA-GCN.