Capture expressive du corps : mains, visage et corps en 3D à partir d'une seule image

Pour faciliter l'analyse des actions, interactions et émotions humaines, nous calculons un modèle 3D de la posture du corps humain, de la posture des mains et de l'expression faciale à partir d'une seule image monoculaire. Pour atteindre cet objectif, nous utilisons des milliers de scans 3D pour entraîner un nouveau modèle 3D unifié du corps humain, appelé SMPL-X, qui étend SMPL avec des mains entièrement articulées et un visage expressif. Apprendre à régresser directement les paramètres de SMPL-X à partir d'images est difficile sans paires d'images et une vérité terrain 3D. Par conséquent, nous suivons l'approche de SMPLify, qui estime les caractéristiques 2D puis optimise les paramètres du modèle pour s'adapter aux caractéristiques. Nous améliorons SMPLify de plusieurs manières significatives : (1) nous détectons les caractéristiques 2D correspondant au visage, aux mains et aux pieds et ajustons le modèle complet SMPL-X à celles-ci ; (2) nous entraînons un nouveau réseau neuronal prioritaire de posture en utilisant un grand ensemble de données MoCap ; (3) nous définissons une nouvelle pénalité d'inter-pénétration qui est à la fois rapide et précise ; (4) nous détectons automatiquement le genre et le modèle corporel approprié (masculin, féminin ou neutre) ; (5) notre implémentation en PyTorch offre une accélération supérieure à 8x par rapport à Chumpy. Nous utilisons la nouvelle méthode, SMPLify-X, pour ajuster SMPL-X à des images contrôlées ainsi qu'à des images dans leur environnement naturel. Nous évaluons la précision 3D sur un nouveau jeu de données curaté composé de 100 images avec une vérité terrain pseudo-étalon. Cela constitue une étape vers la capture automatique d'humains expressifs à partir de données RGB monoculaires. Les modèles, le code source et les données sont disponibles à des fins de recherche sur https://smpl-x.is.tue.mpg.de.