Estimation de la posture humaine par régression thermique des parties convolutionnelles

Ce travail concerne l'estimation de la posture humaine à l'aide de réseaux neuronaux convolutifs (Convolutional Neural Networks, CNN). Notre principale contribution est une architecture en cascade de CNN spécifiquement conçue pour apprendre les relations entre les parties du corps et le contexte spatial, permettant d'inférer robustement la posture même dans le cas d'occlusions sévères des parties. À cette fin, nous proposons une cascade de CNN basée sur la détection suivie d'une régression. La première partie de notre cascade génère des cartes thermiques de détection des parties, tandis que la seconde partie effectue une régression sur ces cartes. Les avantages de l'architecture proposée sont multiples : elle guide le réseau sur les zones où il doit se concentrer dans l'image et encode efficacement les contraintes et le contexte des parties. Plus important encore, elle peut gérer efficacement les occlusions car les cartes thermiques de détection des parties occluses fournissent des scores de confiance faibles, ce qui oriente ensuite la partie régressive de notre réseau à s'appuyer sur les informations contextuelles pour prédire la position de ces parties. De plus, nous montrons que la cascade proposée est suffisamment flexible pour intégrer facilement diverses architectures de CNN, tant pour la détection que pour la régression, y compris celles basées sur l'apprentissage résiduel. Enfin, nous illustrons que notre cascade atteint des performances optimales sur les ensembles de données MPII et LSP. Le code source peut être téléchargé à partir du lien suivant : http://www.cs.nott.ac.uk/~psxab5/