Command Palette
Search for a command to run...
MSA-GCN : Exploitation des dynamiques temporelles multi-échelles avec une convolution de graphe adaptative pour la reconnaissance d’actions basée sur les squelettes
MSA-GCN : Exploitation des dynamiques temporelles multi-échelles avec une convolution de graphe adaptative pour la reconnaissance d’actions basée sur les squelettes
Ji-Hyeong Han Kowovi Comivi Alowonou
Résumé
Les réseaux de convolution sur graphes (GCN) ont été largement utilisés et ont obtenu des résultats remarquables dans la reconnaissance d’actions basée sur les squelettes. Nous observons que les approches existantes fondées sur les GCN s’appuient sur les informations contextuelles locales des articulations du squelette pour construire des graphes adaptatifs afin d’agréger les caractéristiques, ce qui limite leur capacité à comprendre des actions impliquant des mouvements coordonnés entre différentes parties du corps. Un graphe adaptatif fondé sur les informations contextuelles globales des articulations pourrait permettre de dépasser cette limitation. Par conséquent, dans cet article, nous proposons une nouvelle approche pour la reconnaissance d’actions basée sur les squelettes, nommée Multi-stage Adaptive Graph Convolution Network (MSA-GCN). Ce modèle se compose de deux modules : la Multi-stage Adaptive Graph Convolution (MSA-GC) et le Temporal Multi-Scale Transformer (TMST). Ces deux modules travaillent conjointement pour capturer efficacement des motifs spatiaux et temporels complexes au sein des données squelettiques. Plus précisément, le module MSA-GC exploite à la fois les informations contextuelles locales et globales des articulations sur l’ensemble des séquences afin de construire un graphe adaptatif, facilitant ainsi la compréhension des relations complexes et subtils entre les articulations. D’un autre côté, le module TMST intègre une Gated Multi-stage Temporal Convolution (GMSTC) avec une Temporal Multi-Head Self-Attention (TMHSA) pour capturer des caractéristiques temporelles globales et modéliser à la fois les dépendances à long terme et à court terme au sein des séquences d’actions. À travers des expériences étendues sur plusieurs jeux de données standard, notamment NTU RGB+D 60, NTU RGB+D 120 et Northwestern-UCLA, MSA-GCN atteint des performances de pointe et confirme son efficacité dans la reconnaissance d’actions basée sur les squelettes.