SVMAC : Estimation non supervisée de la posture 3D humaine à partir d'une seule image avec cohérence multi-angles en vue unique

La récupération de la posture humaine 3D à partir de joints 2D reste un problème difficile, en particulier sans aucune annotation 3D, informations vidéo ou informations multivues. Dans cet article, nous présentons un modèle basé sur une GAN non supervisée composé de plusieurs générateurs partageant des poids pour estimer une posture humaine 3D à partir d'une seule image sans annotations 3D. Dans notre modèle, nous introduisons la cohérence mono-vue multi-angles (SVMAC) pour améliorer considérablement les performances d'estimation. Avec les positions des joints 2D comme entrée, notre modèle estime simultanément une posture 3D et une caméra. Pendant l'entraînement, la posture 3D estimée est pivotée selon des angles aléatoires et la caméra estimée projette les postures 3D pivotées de retour en 2D. Les réprojections 2D sont ensuite alimentées dans des générateurs partageant des poids pour estimer les postures 3D correspondantes et les caméras, qui sont ensuite combinées pour imposer des contraintes SVMAC afin d'autosurveiller le processus d'entraînement. Les résultats expérimentaux montrent que notre méthode surpassent les méthodes non supervisées de pointe sur Human 3.6M et MPI-INF-3DHP. De plus, les résultats qualitatifs sur MPII et LSP démontrent que notre méthode peut bien généraliser aux données inconnues.