SPEC : Observer des personnes dans leur environnement naturel à l'aide d'une caméra estimée

En raison du manque d'informations sur les paramètres de caméra pour les images prises dans le monde réel (in-the-wild), les méthodes existantes d'estimation de la posture et de la forme 3D humaines (HPS) font plusieurs hypothèses simplificatrices : projection faiblement perspective, longueur focale constante et importante, et rotation de caméra nulle. Ces hypothèses ne tiennent pas toujours la route, et nous montrons, de manière quantitative et qualitative, qu'elles entraînent des erreurs dans la reconstruction de la forme et de la posture 3D. Pour remédier à ce problème, nous introduisons SPEC, la première méthode d'estimation 3D HPS pour images in-the-wild capable d'estimer la caméra perspective à partir d'une seule image, et d'utiliser ces informations pour reconstruire plus précisément les corps humains en 3D. Premièrement, nous entraînons un réseau de neurones pour estimer le champ de vision, le gîte (pitch) et le roulis (roll) de la caméra à partir d'une image d'entrée. Nous utilisons des pertes novatrices qui améliorent significativement la précision de calibration par rapport aux approches antérieures. Ensuite, nous entraînons un nouveau réseau qui concatène les paramètres de calibration de la caméra aux caractéristiques de l'image, et utilise ces informations combinées pour prédire la forme et la posture 3D du corps humain. SPEC obtient des performances supérieures à celles des méthodes précédentes sur le benchmark standard (3DPW), ainsi que sur deux nouveaux jeux de données présentant des angles de vue plus complexes et des longueurs focales variables. Plus précisément, nous avons créé un nouveau jeu de données synthétique photoréaliste (SPEC-SYN) doté de vérités terrain 3D, ainsi qu'un nouveau jeu de données in-the-wild original (SPEC-MTP) comprenant des étiquettes de calibration et des modèles de référence de haute qualité. L'analyse qualitative et quantitative confirme que la connaissance des paramètres de caméra lors de l'inférence permet de reconstruire des corps humains bien meilleurs. Le code source et les jeux de données sont disponibles à l'adresse suivante pour des usages de recherche : https://spec.is.tue.mpg.de.