HyperAIHyperAI
il y a 11 jours

GCN dynamique : apprentissage de la topologie enrichie en contexte pour la reconnaissance d'actions basée sur les squelettes

Fanfan Ye, Shiliang Pu, Qiaoyong Zhong, Chao Li, Di Xie, Huiming Tang
GCN dynamique : apprentissage de la topologie enrichie en contexte pour la reconnaissance d'actions basée sur les squelettes
Résumé

Les réseaux de convolution sur graphes (GCN) ont suscité un intérêt croissant pour la reconnaissance d’actions à partir de squelettes. Le point clé réside dans la conception de la structure de graphe, qui encode les informations topologiques du squelette. Dans cet article, nous proposons Dynamic GCN, dans lequel un nouveau réseau neuronal convolutif, nommé Context-Encoding Network (CeN), est introduit pour apprendre automatiquement la topologie du squelette. Plus précisément, lors de l’apprentissage des dépendances entre deux articulations, des caractéristiques contextuelles provenant des autres articulations sont intégrées de manière globale. CeN est extrêmement léger tout en restant efficace, et peut être facilement intégré dans une couche de convolution sur graphe. En empilant plusieurs couches de convolution sur graphe améliorées par CeN, nous construisons Dynamic GCN. Notamment, grâce à ses propriétés, CeN permet de construire des topologies de graphe dynamiques adaptées à différents échantillons d’entrée ainsi qu’à des couches de convolution sur graphe de profondeurs variées. En outre, trois architectures alternatives de modélisation contextuelle sont soigneusement explorées, offrant ainsi une orientation utile pour les recherches futures sur l’apprentissage de la topologie des graphes. CeN n’ajoute qu’environ 7 % de FLOPs supplémentaires par rapport au modèle de base, tandis que Dynamic GCN atteint des performances supérieures avec 2 à 4 fois moins de FLOPs que les méthodes existantes. En combinant en outre les connexions physiques statiques du corps humain et les modalités de mouvement, nous obtenons des résultats de pointe sur trois grands jeux de données : NTU-RGB+D, NTU-RGB+D 120 et Skeleton-Kinetics.

GCN dynamique : apprentissage de la topologie enrichie en contexte pour la reconnaissance d'actions basée sur les squelettes | Articles de recherche récents | HyperAI