Apprentissage auto-supervisé de la capture de mouvement

Les solutions actuelles de pointe pour la capture de mouvement à partir d'une seule caméra sont basées sur l'optimisation : elles optimisent les paramètres d'un modèle humain 3D afin que sa réprojection corresponde aux mesures dans la vidéo (par exemple, la segmentation de la personne, le flux optique, les détections de points clés, etc.). Les modèles d'optimisation sont sensibles aux minima locaux. Cela a été le goulot d'étranglement qui a contraint l'utilisation de fonds propres et uniformes comme des écrans verts lors de la capture, une initialisation manuelle ou un passage à plusieurs caméras en tant que ressources d'entrée. Dans ce travail, nous proposons un modèle de capture de mouvement basé sur l'apprentissage pour une entrée à partir d'une seule caméra. Au lieu d'optimiser directement les paramètres du maillage et du squelette, notre modèle optimise les poids du réseau neuronal qui prédit la forme 3D et les configurations du squelette à partir d'une vidéo RGB monoculaire. Notre modèle est formé en utilisant une combinaison de supervision forte provenant de données synthétiques et de supervision auto-provenant du rendu différentiable (a) des points clés squelettiques, (b) du mouvement dense du maillage 3D, et (c) de la segmentation avant-plan/fond humain, dans un cadre end-to-end. Nous montrons empiriquement que notre modèle combine le meilleur des deux mondes de l'apprentissage supervisé et de l'optimisation au moment du test : l'apprentissage supervisé initialise les paramètres du modèle dans le bon régime, garantissant une bonne initialisation des poses et des surfaces au moment du test sans effort manuel. La supervision auto par rétropropagation à travers le rendu différentiable permet (de manière non supervisée) l'adaptation du modèle aux données de test et offre un ajustement beaucoup plus serré qu'un modèle pré-entraîné fixe. Nous démontrons que le modèle proposé s'améliore avec l'expérience et converge vers des solutions à faible erreur là où les méthodes d'optimisation précédentes échouent.