HyperAIHyperAI
il y a 3 mois

TSGCNeXt : convolution de graphe multi-étagée dynamique-statique pour une reconnaissance d’actions basée sur la skeleton efficace avec un potentiel d’apprentissage à long terme

Dongjingdin Liu, Pengpeng Chen, Miao Yao, Yijing Lu, Zijie Cai, Yuxin Tian
TSGCNeXt : convolution de graphe multi-étagée dynamique-statique pour une reconnaissance d’actions basée sur la skeleton efficace avec un potentiel d’apprentissage à long terme
Résumé

La reconnaissance d’actions basée sur les squelettes a obtenu des résultats remarquables dans la reconnaissance des actions humaines grâce au développement des réseaux de convolution sur graphe (GCN). Toutefois, les travaux récents tendent à construire des mécanismes d’apprentissage complexes, caractérisés par une entraînement redondant, et rencontrent un goulot d’étranglement dans le traitement des séquences temporelles longues. Pour résoudre ces problèmes, nous proposons Temporal-Spatio Graph ConvNeXt (TSGCNeXt), un modèle visant à explorer un mécanisme d’apprentissage efficace pour les séquences squelettiques temporelles longues. Premièrement, nous introduisons un nouveau mécanisme d’apprentissage de graphe à structure simple, appelé Dynamic-Static Separate Multi-graph Convolution (DS-SMG), permettant d’agréger les caractéristiques provenant de plusieurs graphes topologiques indépendants, tout en évitant que les informations des nœuds ne soient ignorées lors de la convolution dynamique. Ensuite, nous concevons un mécanisme d’accélération de l’entraînement des convolution sur graphe, optimisant le calcul de la rétropropagation pour l’apprentissage dynamique des graphes avec une accélération de 55,08 %. Enfin, TSGCNeXt réorganise l’architecture globale du GCN en intégrant trois modules d’apprentissage spatio-temporel, permettant une modélisation efficace des caractéristiques temporelles longues. Comparé aux méthodes existantes sur les grands jeux de données NTU RGB+D 60 et 120, TSGCNeXt obtient de meilleures performances sur les réseaux à flux unique. De plus, en intégrant un modèle EMA dans la fusion multi-flux, TSGCNeXt atteint un niveau SOTA (state-of-the-art). Sur les évaluations cross-subject et cross-set du NTU 120, les taux de précision atteignent respectivement 90,22 % et 91,74 %.