Réseau de graphes à découpage régulier pour l'estimation de la posture humaine 3D

Dans les méthodes d’estimation de posture humaine basées sur des architectures de convolution sur graphe, le squelette humain est généralement modélisé comme un graphe non orienté dont les nœuds représentent les articulations du corps et les arêtes les connexions entre articulations voisines. Toutefois, la plupart de ces méthodes se concentrent principalement sur l’apprentissage des relations entre les articulations du squelette à l’aide de voisins d’ordre un, tout en ignorant les voisins d’ordre supérieur, ce qui limite leur capacité à exploiter les relations entre des articulations éloignées. Dans ce travail, nous proposons un réseau graphique à découpage régulier d’ordre supérieur (RS-Net) pour l’estimation de posture 2D vers 3D, basé sur une décomposition matricielle combinée à une modulation des poids et de la matrice d’adjacence. L’idée centrale consiste à capturer les dépendances à longue portée entre les articulations en exploitant des voisinages à plusieurs sauts (multi-hop), tout en apprenant des vecteurs de modulation différents pour chaque articulation, ainsi qu’une matrice de modulation ajoutée à la matrice d’adjacence associée au squelette. Cette matrice de modulation apprenable permet d’ajuster la structure du graphe en ajoutant des arêtes supplémentaires, afin de mieux apprendre des connexions supplémentaires entre les articulations. Contrairement à l’utilisation d’une matrice de poids partagée pour toutes les articulations voisines, le modèle RS-Net propose une désagrégation des poids (weight unsharing) avant l’agrégation des vecteurs de caractéristiques associés aux articulations, permettant ainsi de mieux capturer les relations distinctes entre elles. Des expériences et des études d’ablation menées sur deux jeux de données standard démontrent l’efficacité de notre modèle, qui atteint des performances supérieures par rapport aux méthodes les plus récentes de l’état de l’art pour l’estimation de posture 3D.