Régression précise de la forme corporelle 3D à l'aide d'attributs métriques et sémantiques

Bien que les méthodes de régression de maillages 3D humains à partir d'images aient progressé rapidement, les formes corporelles estimées ne capturent souvent pas la véritable forme humaine. Cela pose un problème car, pour de nombreuses applications, une forme corporelle précise est aussi importante que la posture. La raison principale pour laquelle la précision de la forme corporelle reste en retard par rapport à celle de la posture est le manque de données. Bien que les humains puissent étiqueter des articulations 2D, ce qui contraint la posture 3D, il n'est pas si facile d'"étiqueter" une forme corporelle 3D. Étant donné que les données appariées avec des images et des formes corporelles 3D sont rares, nous exploitons deux sources d'information : (1) nous collectons des images Internet de modèles "de mode" diversifiés accompagnées d'un petit ensemble de mesures anthropométriques ; (2) nous collectons des attributs linguistiques de forme pour une large gamme de maillages 3D corporels et les images des modèles. Prises ensemble, ces bases de données fournissent des contraintes suffisantes pour inférer une forme 3D dense. Nous exploitons les mesures anthropométriques et les attributs linguistiques de forme de plusieurs manières innovantes pour entraîner un réseau neuronal appelé SHAPY, qui régresse la posture et la forme corporelle 3D humaines à partir d'une image RGB. Nous évaluons SHAPY sur des benchmarks publics, mais notons qu'ils manquent soit d'une variation significative de la forme corporelle, soit de formes véritables au sol (ground-truth shape), soit d'une variation vestimentaire. Par conséquent, nous collectons un nouveau dataset pour évaluer l'estimation de la forme corporelle 3D, appelé HBW (Human Bodies in the Wild), contenant des photos de "corps humains dans leur environnement naturel" pour lesquels nous disposons de scans corporels 3D véritables au sol. Sur ce nouveau benchmark, SHAPY surpasse considérablement les méthodes actuelles sur la tâche d'estimation de la forme corporelle 3D. Il s'agit de la première démonstration que la régression de la forme corporelle 3D à partir d'images peut être entraînée à partir de mesures anthropométriques faciles à obtenir et d'attributs linguistiques de forme. Notre modèle et nos données sont disponibles à l'adresse suivante : shapy.is.tue.mpg.de