HyperAIHyperAI
il y a 11 jours

Reconnaissance d'actions basée sur les squelettes à l'aide de réseaux neuronaux Transformer spatiaux et temporels

Chiara Plizzari, Marco Cannici, Matteo Matteucci
Reconnaissance d'actions basée sur les squelettes à l'aide de réseaux neuronaux Transformer spatiaux et temporels
Résumé

La reconnaissance d’activités humaines basée sur les squelettes a suscité un intérêt croissant ces dernières années, en raison de la robustesse des données squelettiques face aux variations d’éclairage, aux changements d’échelle corporelle, aux vues dynamiques de caméra et aux arrière-plans complexes. En particulier, les réseaux de convolution sur graphes spatio-temporels (ST-GCN) se sont révélés efficaces pour apprendre à la fois les dépendances spatiales et temporelles sur des données non euclidiennes telles que les graphes squelettiques. Toutefois, une représentation efficace de l’information latente sous-jacente aux squelettes 3D reste un problème ouvert, en particulier en ce qui concerne l’extraction d’informations pertinentes à partir des motifs de mouvement des articulations et de leurs corrélations. Dans ce travail, nous proposons un nouveau réseau Transformer spatio-temporel (ST-TR), qui modélise les dépendances entre articulations à l’aide de l’opérateur d’attention auto-attention du Transformer. Dans notre architecture ST-TR, un module d’attention auto-attention spatiale (SSA) permet de capturer les interactions intra-trames entre différentes parties du corps, tandis qu’un module d’attention auto-attention temporelle (TSA) modélise les corrélations inter-trames. Ces deux modules sont combinés dans un réseau à deux voies, dont les performances sont évaluées sur trois jeux de données à grande échelle : NTU-RGB+D 60, NTU-RGB+D 120 et Kinetics Skeleton 400. Les résultats montrent une amélioration cohérente par rapport aux modèles de base sur tous les jeux de données. Comparé aux méthodes utilisant les mêmes données d’entrée, le ST-TR proposé atteint des performances de pointe sur tous les jeux de données lorsqu’il utilise uniquement les coordonnées des articulations comme entrée, et obtient des résultats comparables aux états de l’art lorsqu’il intègre également des informations sur les os.

Reconnaissance d'actions basée sur les squelettes à l'aide de réseaux neuronaux Transformer spatiaux et temporels | Articles de recherche récents | HyperAI