Estimation de la posture 3D absolue de plusieurs personnes avec une supervision de profondeur faible

Dans l'estimation de la posture humaine en 3D, l'un des plus grands défis est le manque de grands ensembles de données variés. Cela est particulièrement vrai pour l'estimation de la posture en 3D de plusieurs personnes, où, selon nos connaissances, seules des annotations générées par machine sont disponibles pour l'entraînement. Pour atténuer ce problème, nous présentons un réseau qui peut être entraîné avec des images RGB-D supplémentaires de manière faiblement supervisée. Grâce à l'existence de capteurs bon marché, les vidéos avec des cartes de profondeur sont largement disponibles, et notre méthode peut exploiter un ensemble de données non annoté important. Notre algorithme est un estimateur monulaire de la posture absolue de plusieurs personnes. Nous évaluons l'algorithme sur plusieurs benchmarks, montrant une amélioration constante des taux d'erreur. De plus, notre modèle obtient des résultats d'état de l'art sur le jeu de données MuPoTS-3D avec une marge considérable.