MUG : Réseau graphique multi-humain pour la reconstruction de maillages 3D à partir de poses 2D

La reconstruction de maillages corporels multi-individus à partir d’une seule image monoculaire est un problème important mais difficile en vision par ordinateur. En plus des modèles individuels de maillage corporel, il est nécessaire d’estimer les positions 3D relatives entre les sujets afin de générer une représentation cohérente. Dans ce travail, nous proposons une méthode unique basée sur un seul réseau de neurones graphiques, nommé MUG (Multi-hUman Graph network), qui construit des maillages multi-individus cohérents en utilisant uniquement les poses 2D multi-individus comme entrée. Contrairement aux méthodes existantes, qui suivent une approche de détection (c’est-à-dire extraire des caractéristiques d’image, localiser les instances humaines, puis reconstruire les maillages corporels), et qui souffrent d’un écart de domaine significatif entre les jeux de données d’entraînement collectés en laboratoire et les données de test réelles (in-the-wild), notre méthode tire parti des poses 2D, qui présentent une propriété géométrique relativement constante à travers différents jeux de données. Notre approche fonctionne comme suit : tout d’abord, pour modéliser l’environnement multi-individu, elle traite les poses 2D multi-individus et construit un nouveau graphe hétérogène, dans lequel les nœuds correspondant à des personnes différentes ainsi que les nœuds internes à une même personne sont connectés afin de capturer les interactions entre individus et de représenter la géométrie du corps (c’est-à-dire la structure squelettique et le maillage). Ensuite, elle utilise une architecture à double branche de réseau de neurones graphiques : l’une pour prédire les relations de profondeur entre individus, l’autre pour prédire les coordonnées du maillage par rapport au joint racine. Enfin, l’ensemble des maillages 3D multi-individus est construit en combinant les sorties des deux branches. Des expériences étendues montrent que MUG surpasser les méthodes précédentes de reconstruction de maillages multi-individus sur des benchmarks standard 3D humains — Panoptic, MuPoTS-3D et 3DPW.