HyperAIHyperAI
il y a 2 mois

Estimation de la pose 3D humaine égocentrique contextualisée

Wang, Jian ; Liu, Lingjie ; Xu, Weipeng ; Sarkar, Kripasindhu ; Luvizon, Diogo ; Theobalt, Christian
Estimation de la pose 3D humaine égocentrique contextualisée
Résumé

L'estimation de la posture humaine 3D égocentrique à l'aide d'une seule caméra fisheye montée sur la tête a récemment suscité un intérêt croissant en raison de ses nombreuses applications dans la réalité virtuelle et augmentée. Les méthodes existantes peinent encore à traiter des postures complexes où le corps humain est fortement occulté ou interagit étroitement avec la scène. Pour remédier à ce problème, nous proposons une méthode d'estimation de la posture égocentrique prenant en compte la scène, qui guide la prédiction de la posture égocentrique grâce aux contraintes scéniques. À cette fin, nous avons développé un réseau d'estimation de profondeur égocentrique capable de prédire la carte de profondeur de la scène à partir d'une caméra fisheye égocentrique à champ large tout en atténuant l'occultation du corps humain grâce à un réseau d'imputation de profondeur (depth-inpainting network). Ensuite, nous avons proposé un réseau d'estimation de posture prenant en compte la scène qui projette les caractéristiques d'image 2D et la carte de profondeur estimée de la scène dans un espace voxel et régresse la posture 3D avec un réseau V2V. La représentation des caractéristiques basée sur les voxels fournit une connexion géométrique directe entre les caractéristiques d'image 2D et la géométrie de la scène, facilitant ainsi davantage l'utilisation du réseau V2V pour contraindre la posture prédite en fonction de la géométrie estimée de la scène. Pour permettre l'entraînement des réseaux mentionnés ci-dessus, nous avons également généré un jeu de données synthétiques appelé EgoGTA et un jeu de données naturel basé sur EgoPW, appelé EgoPW-Scene. Les résultats expérimentaux de nos nouvelles séquences d'évaluation montrent que les postures 3D égocentriques prédites sont précises et physiquement plausibles en termes d'interaction homme-scène, démontrant que notre méthode surpassent les méthodes actuelles tant quantitativement que qualitativement.