Au-delà de la perspective faible pour l'estimation 3D monoscopique de la posture humaine

Nous considérons la tâche de prédiction de la localisation et de l’orientation des articulations 3D à partir d’une vidéo monoculaire, en utilisant le modèle skinned multi-person linear (SMPL). Nous commençons par estimer les positions 2D des articulations à l’aide d’un algorithme de détection de posture disponible en libre accès. Nous utilisons l’algorithme SPIN, qui permet d’obtenir des prédictions initiales de la posture du corps, de la forme et des paramètres de caméra à partir d’un réseau neuronal à régression profonde. Ensuite, nous appliquons l’algorithme SMPLify, qui prend ces paramètres initiaux comme entrée et les optimise de manière à ce que les articulations 3D prédites par le modèle SMPL s’alignent au mieux avec les positions 2D des articulations détectées. Cette procédure inclut une étape de projection des articulations 3D sur le plan image 2D. L’approche classique repose sur des hypothèses de perspective faible, qui utilisent une focale arbitraire. À travers des expérimentations sur le jeu de données 3D Poses in the Wild (3DPW), nous démontrons que l’utilisation d’une projection perspective complète, avec un centre de caméra correct et une focale approximative, conduit à des résultats supérieurs. Notre algorithme a permis d’obtenir une participation gagnante au défi 3DPW, atteignant la première place en précision de l’orientation des articulations.