PoseNet3D : Apprentissage de la posture 3D humaine temporellement cohérente via la distillation de connaissances

La reconstruction de la posture 3D humaine à partir de joints 2D constitue un problème fortement non contraint. Nous proposons un nouveau cadre de réseau neuronal, PoseNet3D, qui prend en entrée des joints 2D et produit en sortie des squelettes 3D ainsi que les paramètres du modèle corporel SMPL. En formulant notre approche d’apprentissage dans un cadre enseignant-élève, nous parvenons à éviter tout recours à des données 3D telles que des données 3D appariées ou non appariées, des séquences de motion capture, des images de profondeur ou des images multi-vues durant l’entraînement. Nous entraînons d’abord un réseau enseignant qui génère des squelettes 3D, en ne s’appuyant que sur des poses 2D. Ce réseau enseignant transfère ses connaissances à un réseau élève chargé de prédire la posture 3D sous la représentation SMPL. Enfin, les deux réseaux sont finement ajustés conjointement de manière end-to-end, en utilisant des pertes temporelles, de cohérence auto-référentielle et adversariales, ce qui améliore la précision de chacun des réseaux individuellement. Les résultats obtenus sur le jeu de données Human3.6M pour l’estimation de la posture 3D humaine montrent que notre méthode réduit l’erreur de prédiction des joints 3D de 18 % par rapport aux méthodes non supervisées précédentes. Des résultats qualitatifs sur des jeux de données en situation réelle (in-the-wild) démontrent que les postures 3D reconstruites ainsi que les maillages correspondants sont naturels, réalistes et s’écoulent de manière fluide au fil des cadres consécutifs.