Estimation de la posture 3D multi-personne en un seul coup d'œil à partir d'une image RGB monulaire

Nous proposons une nouvelle méthode mono-étape pour l'estimation de la posture 3D de plusieurs personnes dans des scènes générales à partir d'une caméra RGB monoculaire. Notre approche utilise des cartes de posture robustes aux occultations (ORPM) novatrices, qui permettent d'inférer la posture complète du corps même en présence d'occultations partielles importantes par d'autres personnes et objets dans la scène. Les ORPM produisent un nombre fixe de cartes qui encodent les positions 3D des articulations de toutes les personnes présentes dans la scène. Les associations de parties corporelles nous permettent d'inférer la posture 3D pour un nombre arbitraire de personnes sans prédiction explicite de boîtes englobantes. Pour entraîner notre approche, nous introduisons MuCo-3DHP, le premier ensemble de données à grande échelle destiné à l'entraînement, présentant des images réelles d'interactions et d'occultations complexes entre plusieurs personnes. Nous synthétisons un vaste corpus d'images multipes en superposant des images individuelles (avec des vérités terrain issues de captures multicaméra). Nous évaluons notre méthode sur notre nouveau jeu de tests complexe annoté en 3D, MuPoTs-3D, où nous obtenons des performances à l'état de l'art. Afin de stimuler davantage la recherche en estimation 3D de postures multiples, nous mettrons nos nouveaux jeux de données et le code associé à disposition du public pour des fins de recherche.