Distiller les connaissances de la reconstruction non rigide à partir d'une seule image pour l'apprentissage de la pose 3D faiblement supervisé

Nous proposons d'apprendre un estimateur de pose 3D en distillant les connaissances issues des méthodes de Non-Rigid Structure from Motion (NRSfM). Notre méthode utilise uniquement des annotations de points de repère 2D. Aucune donnée 3D, aucune séquence multivue/temporelle, ni aucun a priori spécifique à l'objet n'est nécessaire. Cela atténue le goulot d'étranglement des données, qui est l'une des principales préoccupations des méthodes supervisées. L'utilisation de NRSfM comme enseignant présente un défi : ces méthodes reconstruisent souvent mal la profondeur lorsque les projections 2D présentent une forte ambiguïté. Utiliser directement ces profondeurs erronées comme cibles fermes aurait un impact négatif sur l'étudiant. À la place, nous proposons une nouvelle fonction de perte qui lie la prédiction de profondeur à la fonction coût utilisée dans NRSfM. Cela donne à l'estimateur de pose étudiant la liberté de réduire l'erreur de profondeur en s'associant aux caractéristiques d'image. Validée sur le jeu de données H3.6M, notre réseau d'estimation de pose 3D appris atteint une reconstruction plus précise par rapport aux méthodes NRSfM. Il surpass également d'autres méthodes faiblement supervisées, malgré l'utilisation d'une supervision considérablement moindre.