Reconnaissance d’actions basée sur le squelette avec réseaux de neurones à graphe orienté

Les données squelettiques sont largement utilisées pour les tâches de reconnaissance d’actions, car elles permettent de s’adapter robustement aux conditions dynamiques et aux arrière-plans complexes. Dans les méthodes existantes, à la fois les informations relatives aux articulations et celles relatives aux os dans les données squelettiques se sont révélées particulièrement utiles pour la reconnaissance d’actions. Toutefois, la manière optimale d’intégrer ces deux types de données afin d’exploiter au mieux les relations entre articulations et os reste un problème non résolu. Dans ce travail, nous représentons les données squelettiques sous la forme d’un graphe orienté acyclique, fondé sur les dépendances cinématiques entre les articulations et les os dans le corps humain naturel. Un nouveau réseau neuronal de graphe orienté est conçu spécifiquement pour extraire les informations relatives aux articulations, aux os ainsi qu’aux relations entre eux, et pour effectuer des prédictions à partir des caractéristiques extraites. En outre, afin d’améliorer l’ajustement à la tâche de reconnaissance d’actions, la structure topologique du graphe est rendue adaptative au cours du processus d’entraînement, ce qui entraîne une amélioration notable. En outre, les informations de mouvement issues de la séquence squelettique sont exploitées et combinées avec les informations spatiales dans un cadre à deux voies afin d’approfondir encore les performances. Notre modèle final est évalué sur deux grands jeux de données, NTU-RGBD et Skeleton-Kinetics, et dépasse les performances de l’état de l’art sur les deux.