RepNet : Formation faiblement supervisée d'un réseau de reprojection adversarial pour l'estimation de la posture humaine en 3D

Ce travail aborde le problème de l'estimation de la posture humaine en 3D à partir d'images uniques. Bien que pendant longtemps les squelettes humains aient été paramétrés et ajustés aux observations en satisfaisant une erreur de réprojection, aujourd'hui les chercheurs utilisent directement des réseaux neuronaux pour inférer la posture en 3D à partir des observations. Cependant, la plupart de ces approches ignorent le fait qu'une contrainte de réprojection doit être satisfaite et sont sensibles au surapprentissage. Nous traitons le problème du surapprentissage en ignorant les correspondances 2D-3D. Cela permet d'éviter efficacement une simple mémorisation des données d'entraînement et autorise une formation faiblement supervisée. Une partie du réseau de réprojection proposé (RepNet) apprend une correspondance entre une distribution de postures 2D et une distribution de postures 3D en utilisant une approche d'entraînement antagoniste. Une autre partie du réseau estime la caméra. Cela permet de définir une couche de réseau qui effectue la réprojection de la posture 3D estimée vers 2D, ce qui entraîne une fonction de perte de réprojection. Nos expériences montrent que RepNet généralise bien aux données inconnues et surpassent les méthodes actuelles lorsqu'il est appliqué à des données non vues. De plus, notre implémentation fonctionne en temps réel sur un ordinateur de bureau standard.