Approche descendante prenant en compte la distance caméra pour l'estimation de la posture 3D de plusieurs personnes à partir d'une seule image RGB

Bien que des progrès significatifs aient été réalisés récemment dans l'estimation de la posture humaine en 3D, la plupart des méthodes précédentes ne traitent que le cas d'une seule personne. Dans ce travail, nous proposons pour la première fois une approche descendante (top-down) entièrement basée sur l'apprentissage et prenant en compte la distance de la caméra pour l'estimation de la posture de plusieurs personnes en 3D à partir d'une seule image RGB. Le pipeline du système proposé comprend des modules de détection des personnes, de localisation absolue de la racine 3D des personnes, et d'estimation de la posture 3D individuelle par rapport à la racine. Notre système obtient des résultats comparables à ceux des modèles d'estimation de la posture 3D d'une seule personne les plus avancés sans aucune information de vérité terrain et surpass significativement les méthodes précédentes d'estimation de la posture 3D de plusieurs personnes sur des jeux de données publiquement disponibles.Le code est disponible sur les liens suivants : https://github.com/mks0601/3DMPPE_ROOTNET_RELEASE,https://github.com/mks0601/3DMPPE_POSENET_RELEASE.