HyperAIHyperAI
il y a 3 mois

Neural Descent pour la posture et la forme 3D visuelle humaines

Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu
Neural Descent pour la posture et la forme 3D visuelle humaines
Résumé

Nous présentons une méthodologie basée sur les réseaux de neurones profonds pour reconstruire la posture et la forme 3D d’êtres humains à partir d’une image RGB d’entrée. Notre approche repose sur un modèle statistique 3D expressif du corps entier, récemment introduit, appelé GHUM, entraîné de manière end-to-end, et apprend à reconstruire son état de posture et de forme dans un cadre auto-supervisé. Au cœur de notre méthodologie se trouve une approche d’apprentissage à apprendre et à optimiser, nommée HUmanNeural Descent (HUND), qui évite à la fois les dérivées d’ordre deux lors de l’entraînement des paramètres du modèle, ainsi que les descentes de gradient coûteuses en mémoire à l’évaluation, afin de minimiser précisément une perte différentiable sémantiquement au moment du test. À la place, nous utilisons des étapes récurrentes novatrices pour mettre à jour les paramètres de posture et de forme, de manière à minimiser efficacement les pertes tout en assurant une régularisation méta durant le processus, garantissant ainsi une convergence stable et progressive. La symétrie intrinsèque entre l’entraînement et l’évaluation de HUND en fait la première architecture de perception 3D humaine à supporter nativement différents régimes opératoires, y compris les régimes auto-supervisés. Dans diverses évaluations, nous démontrons que HUND atteint des résultats très compétitifs sur des jeux de données tels que H3.6M et 3DPW, tout en produisant des reconstructions 3D de haute qualité pour des images complexes recueillies dans des environnements réels (in-the-wild).