Raisonnement sur les graphes dynamiques pour l'estimation de la posture 3D multi-personnes

L'estimation de la posture 3D multi-personne est une tâche complexe en raison des problèmes d'occlusion et d'ambiguïté de profondeur, particulièrement dans les scènes de foule. Pour résoudre ces problèmes, la plupart des méthodes existantes explorent le modèle de contextes corporels en améliorant la représentation des caractéristiques avec des réseaux neuronaux à graphes ou en ajoutant des contraintes structurelles. Cependant, ces méthodes ne sont pas robustes en raison de leur formulation à racine unique, qui décode les postures 3D à partir d'un nœud racine avec un graphe pré-défini.Dans cet article, nous proposons GR-M3D, qui modélise l'estimation de la posture 3D multi-personne (Multi-person 3D pose estimation) avec une inférence graphique dynamique (dynamic Graph Reasoning). Le graphe de décodage dans GR-M3D est prédit plutôt que pré-défini. Plus précisément, il génère plusieurs cartes de données et les améliore avec un module de raffinement sensible à l'échelle et à la profondeur (Scale and Depth Aware Refinement module, SDAR). Ensuite, plusieurs points clés racines et des chemins de décodage denses pour chaque personne sont estimés à partir de ces cartes de données. Sur cette base, des graphes de décodage dynamiques sont construits en attribuant des poids de chemin aux chemins de décodage, tandis que les poids de chemin sont inférés à partir des cartes de données améliorées. Ce processus est appelé inférence graphique dynamique (Dynamic Graph Reasoning, DGR). Enfin, les postures 3D sont décodées selon les graphes de décodage dynamiques pour chaque personne détectée.GR-M3D peut ajuster implicitement la structure du graphe de décodage en adoptant des poids de chemin souples en fonction des données d'entrée. Cela rend les graphes de décodage adaptatifs au maximum aux différentes personnes d'entrée et plus capables de gérer l'occlusion et l'ambiguïté de profondeur que les méthodes précédentes. Nous montrons empiriquement que l'approche ascendante proposée surpasse même les méthodes descendantes et atteint des résultats d'état de l'art sur trois jeux de données de posture 3D.