ElePose : Estimation non supervisée de la pose 3D humaine en prédiction de l'élévation caméra et apprentissage de flux normalisants sur les poses 2D

L'estimation de la posture humaine à partir d'images uniques est un problème complexe qui est généralement résolu par l'apprentissage supervisé. Malheureusement, des données d'entraînement étiquetées n'existent pas encore pour de nombreuses activités humaines, car l'annotation en 3D nécessite des systèmes de capture de mouvement dédiés. Nous proposons donc une approche non supervisée capable de prédire une posture humaine en 3D à partir d'une seule image, tout en étant entraînée uniquement avec des données de posture en 2D, qui peuvent être obtenues par le biais du crowdsourcing et sont déjà largement disponibles. À cette fin, nous estimons la posture 3D la plus probable sur des projections aléatoires, la probabilité étant évaluée à l'aide de flux normalisants sur les postures en 2D. Alors que les travaux précédents nécessitent des hypothèses fortes sur les rotations caméra dans l'ensemble de données d'entraînement, nous apprenons la distribution des angles caméra, ce qui améliore considérablement les performances. Une autre partie de notre contribution consiste à stabiliser l'entraînement avec des flux normalisants sur des données de posture 3D à haute dimension en projetant d'abord les postures en 2D dans un sous-espace linéaire. Nous surpassons les méthodes actuelles non supervisées d'estimation de la posture humaine sur les jeux de données de référence Human3.6M et MPI-INF-3DHP selon plusieurs métriques.