Command Palette
Search for a command to run...
Apprentissage de la grammaire de posture pour l'estimation 3D de posture à partir d'une seule vue
Apprentissage de la grammaire de posture pour l'estimation 3D de posture à partir d'une seule vue
Song-Chun Zhu Yuanlu Xu Wenguan Wang Jianwen Xie Xiaobai Liu
Résumé
Dans cet article, nous proposons une grammaire de posture afin de résoudre le problème de l'estimation de la posture 3D à partir d'une image RGB monoscopique. Notre modèle prend comme entrée une posture 2D estimée et apprend une fonction de correspondance généralisée entre les espaces 2D et 3D afin de prédire la posture 3D. Le modèle proposé se compose d’un réseau de base permettant de capturer efficacement des caractéristiques alignées avec la posture, ainsi qu’une hiérarchie de réseaux de neurones récurrents bidirectionnels (BRNN) placés en haut de cette architecture, afin d’intégrer explicitement un ensemble de connaissances relatives à la configuration du corps humain (à savoir la cinématique, la symétrie, la coordination motrice). Ce mécanisme impose ainsi des contraintes de haut niveau sur les postures humaines. En phase d’apprentissage, nous avons développé un algorithme d’augmentation de données visant à améliorer davantage la robustesse du modèle face aux variations d’apparence et sa capacité à généraliser entre différentes vues. Nous validons notre méthode sur des benchmarks publics d’estimation de posture 3D et proposons un nouveau protocole d’évaluation fonctionnant dans un cadre multi-vue, afin de vérifier la capacité de généralisation des différentes approches. Nos observations expérimentales montrent que la plupart des méthodes de pointe rencontrent des difficultés dans ce type de configuration, tandis que notre méthode se montre particulièrement efficace pour faire face à ces défis.