DG-STGCN : Modélisation Spatio-Temporelle Dynamique pour la Reconnaissance d'Actions Basée sur les Squelettes

Les réseaux de convolution sur graphes (GCN) sont largement utilisés dans la reconnaissance d’actions basée sur les squelettes. Nous observons que les approches existantes fondées sur les GCN reposent principalement sur des structures graphiques prédéfinies (c’est-à-dire une topologie manuellement définie des articulations du squelette), ce qui limite leur flexibilité pour capturer des corrélations complexes entre les articulations. Pour dépasser cette limitation, nous proposons un nouveau cadre pour la reconnaissance d’actions basée sur les squelettes, nommé Dynamic Group Spatio-Temporal GCN (DG-STGCN). Ce cadre se compose de deux modules : DG-GCN pour le modélisation spatiale et DG-TCN pour la modélisation temporelle. En particulier, DG-GCN utilise des matrices d’affinité apprises afin de capturer des structures graphiques dynamiques, au lieu de s’appuyer sur une structure prédéfinie, tandis que DG-TCN réalise des convolutions temporelles par groupes avec des champs réceptifs variables et intègre un module de fusion dynamique entre joints et squelette pour une modélisation temporelle multi-niveaux adaptative. Sur une large gamme de benchmarks, incluant NTURGB+D, Kinetics-Skeleton, BABEL et Toyota SmartHome, DG-STGCN surpasse de manière cohérente les méthodes de pointe, souvent avec un écart notable.