Prédiction Structurée de la Posture Humaine 3D avec des Réseaux Neuronaux Profonds

Les approches les plus récentes pour l'estimation de la posture 3D monoculaire s'appuient principalement sur l'Apprentissage Profond (Deep Learning). Elles consistent soit à entraîner un Réseau Neuronal Convolutif (Convolutional Neural Network) pour effectuer une régression directe de l'image à la posture 3D, ce qui ignore les dépendances entre les articulations humaines, soit à modéliser ces dépendances au moyen d'un cadre d'apprentissage structuré à marge maximale (max-margin structured learning framework), ce qui implique un coût computationnel élevé lors de l'inférence.Dans cet article, nous présentons une architecture de régression basée sur l'Apprentissage Profond pour la prédiction structurée de la posture 3D humaine à partir d'images monoculaires. Cette architecture repose sur un auto-encodeur surcomplet pour apprendre une représentation latente de haute dimension de la posture et tenir compte des dépendances articulaires. Nous montrons que notre approche surpassent les méthodes de pointe actuelles tant en termes de préservation de la structure que de précision de prédiction.