Autoencodeur Profond pour l'Estimation Combinée de la Posture Humaine et le Redimensionnement du Modèle Corporel

Nous présentons une méthode permettant d'estimer simultanément la posture et la forme du corps humain en trois dimensions à partir d'un ensemble de vues de caméras à base large et peu nombreuses. Nous entraînons un autoencodeur convolutif symétrique avec une perte double qui impose l'apprentissage d'une représentation latente codant les positions des articulations squelettiques, tout en apprenant une représentation profonde de la forme volumétrique du corps. Nous utilisons cette dernière pour augmenter les données volumétriques d'entrée par un facteur de $4 \times$, tout en récupérant une estimation 3D des positions des articulations avec une précision égale ou supérieure à celle de l'état de l'art. L'inférence s'exécute en temps réel (25 images par seconde) et offre le potentiel de surveillance passive du comportement humain là où il est nécessaire d'avoir une estimation haute fidélité de la forme et de la posture du corps humain.