Réseau de convolution graphique modulé pour l'estimation de la posture 3D humaine

Le réseau de convolution sur graphe (GCN) a récemment obtenu des performances prometteuses pour l’estimation de la posture 3D humaine (HPE) en modélisant les relations entre les différentes parties du corps. Toutefois, la plupart des approches GCN précédentes souffrent de deux défauts principaux. Premièrement, elles appliquent une même transformation de caractéristiques à tous les nœuds au sein d’une couche de convolution sur graphe, ce qui limite leur capacité à apprendre des relations différentes entre les diverses articulations. Deuxièmement, le graphe est généralement défini selon la structure du squelette humain, ce qui est sous-optimal, car les mouvements humains présentent souvent des motifs dynamiques dépassant les connexions naturelles entre les articulations. Pour surmonter ces limitations, nous proposons un nouveau modèle, le GCN modulé, dédié à l’estimation 3D de la posture humaine. Ce modèle repose sur deux composants principaux : la modulation des poids et la modulation de l’affinité. La modulation des poids permet d’apprendre des vecteurs de modulation spécifiques à chaque nœud, ce qui déconnecte les transformations de caractéristiques entre les nœuds tout en maintenant une taille de modèle réduite. La modulation de l’affinité ajuste dynamiquement la structure du graphe au sein du GCN, permettant ainsi de modéliser des arêtes supplémentaires au-delà du squelette humain. Nous étudions plusieurs méthodes de modulation de l’affinité ainsi que l’impact des régularisations. Une analyse ablation rigoureuse indique que les deux types de modulation améliorent significativement les performances, avec un surcoût négligeable. Par rapport aux GCN d’avant-garde pour l’estimation 3D de la posture humaine, notre approche réduit soit de manière significative les erreurs d’estimation (d’environ 10 %), tout en conservant une taille de modèle faible, soit réduit drastiquement la taille du modèle (passant de 4,22 millions à 0,29 million de paramètres, soit une réduction de 14,5 fois), tout en atteignant des performances comparables. Les résultats obtenus sur deux benchmarks montrent que notre GCN modulé surpasse certains états de l’art récents. Le code source est disponible à l’adresse suivante : https://github.com/ZhimingZo/Modulated-GCN.