BodyNet : Inférence volumique des formes corporelles 3D

L'estimation de la forme humaine est une tâche importante pour l'édition vidéo, l'animation et l'industrie de la mode. Cependant, prédire la forme corporelle humaine en 3D à partir d'images naturelles est extrêmement difficile en raison de facteurs tels que la variabilité des corps humains, des vêtements et des points de vue. Les méthodes précédentes abordant ce problème tentent généralement d'ajuster des modèles corporels paramétriques avec certaines hypothèses sur la posture et la forme. Dans cette étude, nous plaidons pour une représentation alternative et proposons BodyNet, un réseau neuronal permettant une inférence directe de la forme volumétrique du corps à partir d'une seule image. BodyNet est un réseau entièrement entraînable qui bénéficie (i) d'une perte 3D volumétrique, (ii) d'une perte de réprojection multivue, et (iii) d'une supervision intermédiaire de la posture 2D, de la segmentation des parties du corps 2D et de la posture 3D. Chacun de ces éléments améliore les performances, comme le démontrent nos expériences. Pour évaluer notre méthode, nous ajustons le modèle SMPL à la sortie de notre réseau et montrons des résultats d'état de l'art sur les jeux de données SURREAL et Unite the People, surpassant ainsi les approches récentes. Outre l'atteinte des meilleures performances actuelles, notre méthode permet également une segmentation volumétrique des parties du corps.