Estimation de posture 3D multi-personne basée sur les graphes à l’aide d’images multi-vues

Ce papier étudie la tâche d’estimation des poses 3D de plusieurs personnes à partir de plusieurs vues de caméras calibrées. Suivant le paradigme haut-bas, nous décomposons cette tâche en deux étapes : la localisation des personnes et l’estimation de la pose. Les deux étapes sont traitées selon une approche grossier-à-fin. Nous proposons trois réseaux de neurones à graphes spécifiques à la tâche pour une propagation efficace des informations. Pour la localisation 3D des personnes, nous utilisons d’abord le module de graphe d’association multi-vues (MMG) afin d’apprendre les associations entre vues et de récupérer des propositions humaines grossières. Le module de raffinement du centre (CRG) affine ensuite ces résultats grâce à une prédiction flexible basée sur des points. Pour l’estimation de la pose 3D, le module de régression de pose (PRG) apprend à la fois la géométrie multi-vues et les relations structurelles entre les articulations humaines. Notre approche atteint des performances de pointe sur les jeux de données CMU Panoptic et Shelf, tout en présentant une complexité computationnelle significativement réduite.