Apprentissage de la reconstruction de la posture et de la forme humaines en 3D par l'intermédiaire d'un ajustement de modèle en boucle

L'estimation de la posture humaine basée sur un modèle est actuellement abordée par deux paradigmes différents. Les méthodes basées sur l'optimisation ajustent un modèle corporel paramétrique aux observations 2D de manière itérative, ce qui conduit à des alignements précis entre l'image et le modèle, mais ces méthodes sont souvent lentes et sensibles à l'initialisation. En revanche, les méthodes basées sur la régression, qui utilisent un réseau profond pour estimer directement les paramètres du modèle à partir des pixels, tendent à fournir des résultats raisonnables, mais pas précis au niveau des pixels, tout en nécessitant d'importantes quantités de supervision. Dans cette étude, plutôt que d'examiner quel approche est meilleure, notre intuition clé est que les deux paradigmes peuvent former une collaboration forte. Une estimation raisonnable obtenue directement par le réseau peut initialiser l'optimisation itérative, rendant ainsi le processus plus rapide et plus précis. De même, un ajustement précis au niveau des pixels obtenu par l'optimisation itérative peut servir de supervision robuste pour le réseau. C'est le cœur de notre approche proposée SPIN (SMPL oPtimization IN the loop). Le réseau profond initialise une routine d'optimisation itérative qui ajuste le modèle corporel aux articulations 2D dans la boucle d'entraînement, et l'estimation ajustée est ensuite utilisée pour superviser le réseau. Notre approche est naturellement auto-améliorante, car de meilleures estimations du réseau peuvent conduire l'optimisation à de meilleures solutions, tandis que des ajustements plus précis fournis par l'optimisation offrent une meilleure supervision pour le réseau. Nous démontrons l'efficacité de notre approche dans différentes configurations où la vérité terrain 3D est rare ou non disponible, et nous surpassons constamment les approches actuelles d'estimation de la posture humaine basée sur un modèle avec des marges significatives. Le site web du projet avec vidéos, résultats et code se trouve à https://seas.upenn.edu/~nkolot/projects/spin.