Réseaux de Convolution sur Graphes Sémantiques pour la Régression de la Posture Humaine en 3D

Dans cet article, nous étudions le problème d'apprentissage des Réseaux de Neurones à Convolution Graphique (GCNs) pour la régression. Les architectures actuelles des GCNs sont limitées par le petit champ de réception des filtres de convolution et par la matrice de transformation partagée pour chaque nœud. Pour surmonter ces limitations, nous proposons les Réseaux de Neurones à Convolution Graphique Sémantique (SemGCN), une nouvelle architecture de réseau neuronal qui opère sur des tâches de régression avec des données structurées en graphe. Le SemGCN apprend à capturer des informations sémantiques telles que les relations locales et globales entre les nœuds, qui ne sont pas explicitement représentées dans le graphe. Ces relations sémantiques peuvent être apprises par un entraînement end-to-end à partir de la vérité terrain sans supervision supplémentaire ni règles conçues manuellement. Nous examinons également l'application du SemGCN à la régression de la posture humaine en 3D. Notre formulation est intuitive et suffisante car les postures humaines en 2D et en 3D peuvent être représentées sous forme de graphe structuré codant les relations entre les articulations du squelette d'un corps humain. Nous menons des études approfondies pour valider notre méthode. Les résultats démontrent que le SemGCN surpassent l'état de l'art tout en utilisant 90% moins de paramètres.