Apprentissage de la grammaire des poses pour encoder la configuration du corps humain dans l'estimation des poses 3D

Dans cet article, nous proposons une grammaire de posture pour aborder le problème de l'estimation de la posture humaine en 3D. Notre modèle prend directement une posture en 2D comme entrée et apprend une fonction de mappage généralisée entre les postures en 2D et en 3D. Le modèle proposé se compose d'un réseau de base qui capture efficacement des caractéristiques alignées sur la posture, ainsi que d'une hiérarchie de réseaux neuronaux récurrents bidirectionnels (RNN bidirectionnels ou BRNN) au sommet pour intégrer explicitement un ensemble de connaissances relatives à la configuration du corps humain (c'est-à-dire, la cinématique, la symétrie, la coordination motrice). Ainsi, le modèle proposé impose des contraintes de haut niveau sur les postures humaines. Pour l'apprentissage, nous avons développé un simulateur d'échantillons de posture afin d'augmenter les échantillons d'entraînement dans des vues virtuelles de caméra, ce qui améliore davantage la généralisation de notre modèle. Nous validons notre méthode sur des bancs d'essai publics d'estimation de posture humaine en 3D et proposons un nouveau protocole d'évaluation fonctionnant dans un cadre inter-vues pour vérifier la capacité de généralisation des différentes méthodes. Nous observons empiriquement que la plupart des méthodes les plus avancées rencontrent des difficultés dans ce cadre, tandis que notre méthode peut y faire face avec succès.