Module d'extension temporelle pour la reconnaissance d'actions basée sur les squelettes

Nous présentons un module qui étend le graphe temporel d’un réseau de convolution sur graphe (GCN) pour la reconnaissance d’actions à partir d’une séquence de squelettes. Les méthodes existantes cherchent à représenter un graphe spatial plus adapté au sein d’un même cadre (intra-frame), tout en négligeant l’optimisation du graphe temporel entre cadres (inter-frame). Plus précisément, ces approches établissent des connexions uniquement entre les sommets correspondant au même joint à travers les cadres successifs. Dans ce travail, nous nous concentrons sur l’ajout de connexions entre des sommets voisins sur des cadres successifs, et sur l’extraction de caractéristiques supplémentaires à partir du graphe temporel étendu. Notre module constitue une méthode simple mais efficace pour extraire des caractéristiques corrélées provenant de plusieurs joints au cours du mouvement humain. En outre, ce module permet d’améliorer davantage les performances, en complément d’autres méthodes GCN qui optimisent uniquement le graphe spatial. Nous menons des expériences approfondies sur deux grands jeux de données, NTU RGB+D et Kinetics-Skeleton, et démontrons que notre module est efficace pour plusieurs modèles existants. Notre modèle final atteint des performances de pointe (state-of-the-art).