Optimisation de la structure du réseau pour l'estimation de la posture 3D humaine

Une posture humaine est naturellement représentée sous forme de graphe, où les articulations constituent les nœuds et les os les arêtes. Il est donc naturel d'appliquer un Réseau de Convolution sur Graphes (GCN) pour estimer des postures 3D à partir de postures 2D. Dans ce travail, nous proposons une formulation générique dont à la fois le GCN et le Réseau Entièrement Connecté (FCN) sont des cas particuliers. À partir de cette formulation, nous constatons que le GCN présente une capacité de représentation limitée lorsqu'il est utilisé pour l'estimation de postures 3D. Nous surmontons cette limitation en introduisant un Réseau Localement Connecté (LCN), qui s'implémente naturellement à partir de cette formulation générique. Ce dernier améliore notablement la capacité de représentation par rapport au GCN. En outre, puisque chaque articulation n'est reliée qu'à un petit nombre d'articulations voisines, le modèle possède une forte capacité de généralisation. Les expérimentations sur des jeux de données publics montrent que notre approche : (1) dépasse les méthodes de pointe actuelles ; (2) nécessite moins de données que les modèles alternatifs ; (3) se généralise efficacement à des actions et des jeux de données non vus auparavant.