STEP CATFormer : Transformateur à Attention Croisée Corps-Partie Efficace Espace-Temporelle pour la Reconnaissance d'Actions Basée sur les Ossements

Les réseaux de convolution de graphes (GCN) ont été largement utilisés et ont obtenu des résultats remarquables dans la reconnaissance d’actions basée sur les squelettes. Nous pensons que la clé de la reconnaissance d’actions à partir de squelettes réside dans la représentation du squelette au sein des cadres successifs ; nous nous concentrons donc sur la manière dont les réseaux de convolution de graphes apprennent différentes topologies et agrègent efficacement les caractéristiques des articulations dans les dimensions temporelles globales et locales. Dans ce travail, nous proposons trois variantes de Graph Convolution à Topologie Par Canal, basées sur le modèle de convolution de graphe à réaffinement de topologie par canal (CTR-GCN). En combinant CTR-GCN avec deux modules d’attention croisée entre joints, il devient possible de capturer les caractéristiques des relations spatiales entre les parties supérieures et inférieures du corps, ainsi que celles entre les mains et les pieds. Ensuite, afin de modéliser les évolutions des squelettes humains au fil des cadres, nous avons conçu des Transformateurs d’Attention Temporelle pour extraire efficacement les caractéristiques des squelettes. Ces transformateurs sont capables d’apprendre les caractéristiques temporelles des séquences de squelettes humains. Enfin, nous fusionnons les caractéristiques temporelles extraites à l’aide d’un réseau de neurones multicouche (MLP) avant d’effectuer la classification. Nous avons développé un réseau de convolution de graphe puissant, nommé Spatial Temporal Effective Body-part Cross Attention Transformer (STEP-CATFormer), qui obtient des performances exceptionnelles sur les jeux de données NTU RGB+D et NTU RGB+D 120. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/maclong01/STEP-CATFormer