Reconnaissance d’actions basée sur le squelette par agrégation temporelle-canale

Les méthodes de reconnaissance d’actions basées sur les squelettes sont limitées par l’extraction sémantique des cartes spatio-temporelles de squelettes. Toutefois, les méthodes actuelles peinent à combiner efficacement les caractéristiques provenant des dimensions spatiale et temporelle, et tendent à présenter un déséquilibre entre ces deux aspects. Dans cet article, nous proposons un réseau de convolution de graphes à agrégation temporelle et canalique (TCA-GCN) afin d’apprendre dynamiquement les topologies spatiales et temporelles, et d’agréger efficacement les caractéristiques topologiques dans différentes dimensions temporelles et canaliques pour la reconnaissance d’actions basée sur les squelettes. Nous utilisons un module d’agrégation temporelle pour apprendre les caractéristiques dans la dimension temporelle, ainsi qu’un module d’agrégation canalique pour combiner efficacement les caractéristiques topologiques dynamiques spatiales par canal avec les caractéristiques topologiques dynamiques temporelles. En outre, nous extrayons des caractéristiques squelettiques multi-échelles lors de la modélisation temporelle, et les fusionnons à l’aide d’un mécanisme d’attention. Des expériences étendues montrent que notre modèle obtient des performances supérieures aux méthodes de pointe sur les jeux de données NTU RGB+D, NTU RGB+D 120 et NW-UCLA.