Apprendre à Estimer la Posture et la Forme 3D d'un Humain à Partir d'une Seule Image en Couleur

Ce travail aborde le problème de l'estimation de la posture et de la forme corporelle humaine en 3D à partir d'une seule image couleur. Il s'agit d'une tâche où les solutions basées sur l'optimisation itérative ont généralement prévalu, tandis que les réseaux de neurones convolutifs (ConvNets) ont souffert du manque de données d'entraînement et de leurs prédictions 3D à faible résolution. Notre objectif est de combler cet écart et nous proposons une méthode efficace et performante de prédiction directe basée sur les ConvNets. Un élément central de notre approche est l'intégration d'un modèle statistique paramétrique de forme corporelle (SMPL) au sein de notre cadre end-to-end. Cela nous permet d'obtenir des résultats très détaillés en termes de maillage 3D, tout en n'exigeant l'estimation que d'un petit nombre de paramètres, ce qui facilite la prédiction directe par le réseau. De manière intéressante, nous démontrons que ces paramètres peuvent être prédits avec fiabilité à partir des seuls points clés 2D et masques. Ce sont des sorties typiques des ConvNets génériques d'analyse humaine 2D, ce qui nous permet de réduire considérablement la nécessité massive d'avoir des images avec une vérité terrain 3D pour l'entraînement. Parallèlement, en maintenant la différentiabilité, nous générons le maillage 3D à partir des paramètres estimés lors de l'entraînement et optimisons explicitement la surface en utilisant une perte par sommet en 3D. Enfin, un rendu différentiable est utilisé pour projeter le maillage 3D sur l'image, ce qui permet une amélioration supplémentaire du réseau en optimisant la cohérence entre la projection et les annotations 2D (c'est-à-dire les points clés 2D ou les masques). L'approche proposée surpasses les méthodes précédentes sur cette tâche et offre une solution attrayante pour la prédiction directe de la forme 3D à partir d'une seule image couleur.