Estimation de la posture 3D humaine à plusieurs personnes à partir d’images monoculaires

L'estimation de la posture 3D de plusieurs personnes à partir d'une seule image constitue un problème difficile, en particulier dans des scénarios réels (in-the-wild), en raison du manque de données annotées en 3D. Nous proposons HG-RCNN, un réseau basé sur Mask-RCNN qui exploite également les avantages de l'architecture Hourglass pour l'estimation de la posture 3D de plusieurs personnes. Une approche en deux étapes est présentée : elle commence par estimer les points clés 2D dans chaque région d'intérêt (RoI), puis relève ces points estimés en 3D. Enfin, les poses 3D estimées sont positionnées dans le système de coordonnées de la caméra en utilisant une hypothèse de projection faible-perspective, accompagnée d'une optimisation conjointe de la longueur focale et des translations de la racine. Le résultat est un réseau simple et modulaire pour l'estimation de la posture 3D de plusieurs personnes, qui ne nécessite aucune base de données de postures 3D à plusieurs personnes. Malgré sa formulation simple, HG-RCNN atteint des performances de pointe sur le benchmark MuPoTS-3D tout en approximant la posture 3D dans le système de coordonnées de la caméra.