Unification des caractéristiques d'embedding de graphe avec les réseaux de convolution de graphe pour la reconnaissance d'actions basée sur les squelettes

La combinaison de la structure squelettique avec les réseaux de convolution sur graphe a permis d’obtenir des performances remarquables dans la reconnaissance des actions humaines. Étant donné que les recherches actuelles se concentrent principalement sur la conception de graphes fondamentaux pour représenter les données squelettiques, ces caractéristiques d’encodage contiennent uniquement des informations topologiques de base, ne permettant pas d’extraire des perspectives plus systématiques à partir des données squelettiques. Dans cet article, nous surmontons cette limitation en proposant un cadre novateur qui intègre 15 caractéristiques d’encodage de graphe dans un réseau de convolution sur graphe pour la reconnaissance des actions humaines, visant à tirer pleinement parti de l’information graphique afin de distinguer efficacement les articulations clés, les os et les parties du corps dans les actions humaines, au lieu de se limiter à une seule caractéristique ou domaine. En outre, nous étudions en profondeur la manière de sélectionner les meilleures caractéristiques de graphe issues de la structure squelettique afin d’améliorer la reconnaissance des actions humaines. Par ailleurs, l’information topologique des séquences squelettiques est explorée pour renforcer davantage les performances dans un cadre multi-flux. Enfin, les caractéristiques graphiques unifiées sont extraites par des méthodes adaptatives durant le processus d’entraînement, ce qui permet d’obtenir des améliorations supplémentaires. Notre modèle est validé sur trois grands jeux de données : NTU-RGB+D, Kinetics et SYSU-3D, et dépasse les méthodes de pointe. Globalement, ce travail unifie les caractéristiques d’encodage de graphe, favorisant ainsi une recherche systématique dans le domaine de la reconnaissance des actions humaines.