Réseau de neurones convolutionnel spatio-temporel à multiples échelles pour la reconnaissance d'actions basée sur les squelettes
Les données squelettiques transmettent des informations essentielles pour la reconnaissance d’actions, car elles sont robustes face aux arrière-plans encombrés et aux variations d’éclairage. Ces dernières années, en raison de leur capacité limitée à extraire des caractéristiques spatiales et temporelles à partir de données squelettiques, les méthodes basées sur les réseaux de neurones convolutifs (CNN) ou les réseaux de neurones récurrents ont montré une précision de reconnaissance inférieure. Une série de méthodes fondées sur les réseaux de convolution de graphe (GCN) a quant à elle atteint des performances remarquables et s’est progressivement imposée comme dominante. Toutefois, le coût computationnel de ces approches basées sur les GCN reste élevé, certains travaux dépassant même 100 GFLOPs, ce qui est en contradiction avec la nature hautement condensée des données squelettiques. Dans cet article, nous proposons un nouveau module convolutif multi-échelle spatio-temporel (MSST) afin d’exploiter de manière implicite les avantages complémentaires des représentations spatio-temporelles à différentes échelles. Contrairement à certaines méthodes CNN précédentes qui convertissent les données squelettiques en pseudo-images ou utilisent des convolutions de graphe complexes, nous tirons pleinement parti des convolutions multi-échelles sur les dimensions temporelles et spatiales pour capturer des dépendances complètes entre les articulations squelettiques. En intégrant ce module MSST, nous proposons un réseau de neurones convolutif spatio-temporel multi-échelle (MSSTNet) capable de capturer des caractéristiques sémantiques hautement abstraites spatio-temporelles pour la reconnaissance d’actions. Contrairement aux méthodes antérieures qui améliorent la performance au prix d’un coût computationnel élevé, MSSTNet peut être facilement mis en œuvre avec une taille de modèle légère et une inférence rapide. En outre, MSSTNet est intégré dans un cadre à quatre flux afin de fusionner des données de modalités différentes, ce qui permet une amélioration notable de la précision de reconnaissance. Sur les jeux de données NTU RGB+D 60, NTU RGB+D 120, UAV-Human et Northwestern-UCLA, le MSSTNet proposé atteint des performances compétitives tout en nécessitant un coût computationnel bien inférieur à celui des méthodes de pointe actuelles.