Estimation monulaire de la pose 3D humaine par génération et classement ordinal

L'estimation monulaire de la posture humaine en 3D à partir d'images statiques est un problème complexe, en raison de la malédiction de la dimensionalité et de la nature mal posée du relèvement 2D-3D. Dans cet article, nous proposons un modèle basé sur un autoencodeur variationnel conditionnel profond (Deep Conditional Variational Autoencoder) qui synthétise des échantillons de postures 3D anatomiquement plausibles, conditionnés par la posture 2D estimée. Nous démontrons que l'ensemble d'échantillons de postures 3D basé sur le CVAE est cohérent avec la posture 2D et aide à résoudre l'ambiguïté inhérente au relèvement 2D-3D. Nous proposons deux stratégies pour obtenir la posture 3D finale :a) des relations d'ordre de profondeur pour noter et pondérer les postures 3D candidates, appelées OrdinalScore, et b) une supervision par un Oracle.Nous rapportons des résultats proches de l'état de l'art sur deux jeux de données de référence en utilisant OrdinalScore, et des résultats à l'état de l'art en utilisant l'Oracle. Nous montrons également que notre pipeline produit des résultats compétitifs sans annotations d'images couplées à des postures 3D. Le code d'entraînement et d'évaluation est disponible à l'adresse suivante : https://github.com/ssfootball04/generative_pose.