Light3DPose : estimation en temps réel de la posture 3D multi-personnes à partir de plusieurs vues

Nous présentons une approche pour estimer la posture 3D de plusieurs personnes à partir de quelques vues de caméras calibrées. Notre architecture, qui exploite la couche de déprojection récemment proposée, agrège les cartes de caractéristiques issues d’un modèle principal (backbone) d’estimation de posture 2D afin de former une représentation globale de la scène 3D. Cette représentation intermédiaire est ensuite affinée par un réseau volumétrique entièrement convolutif ainsi qu’une phase de décodage, permettant d’extraire des squelettes 3D avec une précision sub-voxel. Notre méthode atteint l’état de l’art en termes de MPJPE sur le jeu de données CMU Panoptic, même avec un petit nombre de vues non vues auparavant, et obtient des résultats compétitifs même avec une seule vue d’entrée. Nous évaluons également les capacités d’apprentissage transféré du modèle en le testant sur le jeu de données public Shelf, où il obtient de bons résultats en termes de métriques de performance. La méthode proposée est intrinsèquement efficace : étant une approche purement bottom-up, elle est indépendante du nombre de personnes présentes dans la scène du point de vue computationnel. En outre, bien que la charge computationnelle de la partie 2D évolue linéairement avec le nombre de vues d’entrée, l’architecture globale permet d’utiliser un backbone 2D très léger, qui est plusieurs ordres de grandeur plus rapide que sa contrepartie volumétrique, conduisant à des temps de déduction rapides. Le système peut fonctionner à 6 FPS, en traitant jusqu’à 10 vues de caméra sur une seule GPU 1080Ti.