Reconnaissance d'Actions Basée sur le Squelette avec des Réseaux de Neurones Convolutifs

Les approches actuelles de pointe pour la reconnaissance d'actions basée sur le squelette sont principalement fondées sur les réseaux de neurones récurrents (RNN). Dans cet article, nous proposons un nouveau cadre basé sur les réseaux de neurones convolutifs (CNN) pour la classification et la détection des actions. Les coordonnées brutes du squelette ainsi que le mouvement du squelette sont directement alimentées dans le CNN pour prédire les étiquettes. Un module de transformation du squelette novateur est conçu pour réorganiser et sélectionner automatiquement les articulations importantes du squelette. Avec un réseau simple à 7 couches, nous obtenons une précision de 89,3 % sur l'ensemble de validation du jeu de données NTU RGB+D. Pour la détection d'actions dans des vidéos non coupées, nous développons un réseau de proposition de fenêtres pour extraire des propositions de segments temporels, qui sont ensuite classifiées au sein du même réseau. Sur le jeu de données PKU-MMD récent, nous atteignons un mAP de 93,7 %, surpassant largement la ligne de base.