Fusion de Vues Croisées pour l'Estimation de la Posture Humaine en 3D

Nous présentons une approche pour récupérer les poses 3D absolues d'un être humain à partir d'images multi-vues en intégrant des a priori géométriques multi-vues dans notre modèle. Cette méthode se compose de deux étapes distinctes : (1) l'estimation des poses 2D dans les images multi-vues et (2) la reconstruction des poses 3D à partir des poses 2D multi-vues. Premièrement, nous introduisons un schéma de fusion inter-vues dans le réseau neuronal convolutif (CNN) pour estimer conjointement les poses 2D pour plusieurs vues. Ainsi, l'estimation des poses 2D pour chaque vue bénéficie déjà des autres vues. Deuxièmement, nous proposons un modèle de structure picturale récursive pour reconstruire la pose 3D à partir des poses 2D multi-vues. Ce modèle améliore progressivement la précision de la pose 3D avec un coût computationnel raisonnable. Nous avons testé notre méthode sur deux jeux de données publics, H36M et Total Capture. Les erreurs moyennes par joint sur ces deux jeux de données sont de 26 mm et 29 mm, ce qui représente une performance remarquablement supérieure aux méthodes actuelles (26 mm contre 52 mm, 29 mm contre 35 mm). Notre code est disponible à l'adresse \url{https://github.com/microsoft/multiview-human-pose-estimation-pytorch}.