VoxelPose : Vers une estimation de la posture 3D humaine en environnement sauvage à l'aide de plusieurs caméras

Nous présentons une approche pour estimer les poses 3D de plusieurs personnes à partir de plusieurs vues caméra. Contrairement aux travaux antérieurs qui nécessitent d’établir une correspondance entre les vues à partir d’estimations 2D bruitées et incomplètes, nous proposons une solution end-to-end qui opère directement dans l’espace 3D, évitant ainsi de prendre des décisions erronées dans l’espace 2D. Pour atteindre cet objectif, les caractéristiques issues de toutes les vues caméra sont projetées et agrégées dans un espace 3D commun, puis alimentées dans un réseau de propositions de cuboïdes (Cuboid Proposal Network, CPN) afin de localiser grossièrement toutes les personnes. Ensuite, nous introduisons un réseau de régression de pose (Pose Regression Network, PRN) pour estimer une pose 3D détaillée pour chaque proposition. L’approche est robuste aux occlusions, qui surviennent fréquemment en pratique. Sans recourir à des améliorations supplémentaires, elle dépasse les états de l’art sur des jeux de données publics. Le code sera mis à disposition à l’adresse suivante : https://github.com/microsoft/multiperson-pose-estimation-pytorch.