HyperAIHyperAI
il y a 4 mois

Prédiction volumétrique de grossière à fine pour la pose 3D humaine à partir d'une seule image

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
Prédiction volumétrique de grossière à fine pour la pose 3D humaine à partir d'une seule image
Résumé

Ce document aborde le défi de l'estimation de la posture humaine en 3D à partir d'une seule image couleur. Malgré le succès général du paradigme d'apprentissage de bout en bout, les approches les plus performantes utilisent une solution en deux étapes composée d'un réseau de neurones convolutif (ConvNet) pour la localisation des articulations en 2D et d'une étape d'optimisation ultérieure pour récupérer la posture en 3D. Dans cet article, nous identifions la représentation de la posture en 3D comme un problème crucial avec les approches actuelles basées sur les ConvNets et apportons deux contributions importantes pour valider la valeur de l'apprentissage de bout en bout pour cette tâche. Premièrement, nous proposons une discrétisation fine de l'espace 3D autour du sujet et formons un ConvNet pour prédire les probabilités par voxel pour chaque articulation. Cela crée une représentation naturelle pour la posture en 3D et améliore considérablement les performances par rapport à la régression directe des coordonnées des articulations. Deuxièmement, pour améliorer davantage les estimations initiales, nous utilisons un schéma de prédiction progressif de grossier à fin. Cette étape permet de gérer l'augmentation importante de la dimensionnalité et permet un affinement itératif et un traitement répété des caractéristiques d'image. L'approche proposée surpasse toutes les méthodes de pointe sur des benchmarks standard, réalisant une réduction relative des erreurs supérieure à 30 % en moyenne. En outre, nous examinons l'utilisation de notre représentation volumique dans une architecture connexe qui est moins optimale comparée à notre approche de bout en bout, mais qui présente un intérêt pratique car elle permet l'entraînement même lorsque aucune image avec des vérités terrain correspondantes en 3D n'est disponible, et nous permet également de présenter des résultats convaincants pour des images non contrôlées (in-the-wild).