Prédire le point de vue de la caméra améliore la généralisation inter-ensemble de données pour l'estimation de la posture 3D humaine

L’estimation monoculaire de la posture 3D humaine a suscité un intérêt croissant avec la disponibilité de grands jeux de données étiquetés provenant de captures de mouvement. Toutefois, la diversité des données d’entraînement reste limitée, et il n’est pas clair dans quelle mesure les méthodes s’adaptent à des données extérieures aux jeux de données spécifiques sur lesquels elles ont été entraînées. Dans ce travail, nous menons une étude systématique de la diversité et des biais présents dans des jeux de données particuliers, ainsi que de leur impact sur la généralisation inter-jeux de données à travers une compilation de cinq jeux de données de posture. Nous nous concentrons particulièrement sur les différences systématiques dans la répartition des points de vue caméra par rapport à un repère centré sur le corps. À partir de cette observation, nous proposons une tâche auxiliaire consistant à prédire le point de vue caméra, en plus de la posture. Nous constatons que les modèles entraînés pour prédire simultanément le point de vue et la posture présentent une généralisation inter-jeux significativement améliorée.