Réseaux de convolution graphique actionnel-structurels pour la reconnaissance d'actions basée sur le squelette

La reconnaissance d'actions à partir de données squelettiques a récemment attiré beaucoup d'attention dans le domaine de la vision par ordinateur. Les études précédentes sont principalement basées sur des graphes squelettiques fixes, ne capturant que les dépendances physiques locales entre les articulations, ce qui peut entraîner une perte de corrélations implicites entre les articulations. Pour capturer des dépendances plus riches, nous introduisons une structure encodeur-décodeur appelée module d'inférence A-link, qui permet de capturer directement des dépendances latentes spécifiques aux actions, c'est-à-dire des liens actionnels, à partir des actions. Nous étendons également les graphes squelettiques existants pour représenter des dépendances d'ordre supérieur, c'est-à-dire des liens structurels. En combinant ces deux types de liens dans un graphe squelettique généralisé, nous proposons le réseau de convolution graphique actionnel-structurel (AS-GCN), qui empile des convolutions graphiques actionnelles-structurelles et des convolutions temporelles comme bloc de base pour apprendre à la fois des caractéristiques spatiales et temporelles pour la reconnaissance d'actions. Une tête de prédiction de posture future est ajoutée en parallèle à la tête de reconnaissance pour aider à capturer des modèles d'action plus détaillés grâce à l'autosupervision. Nous validons l'AS-GCN dans la reconnaissance d'actions en utilisant deux ensembles de données squelettiques, NTU-RGB+D et Kinetics. L'AS-GCN proposé réalise une amélioration constamment importante par rapport aux méthodes les plus avancées actuellement disponibles. En tant que produit secondaire, l'AS-GCN montre également des résultats prometteurs pour la prédiction de postures futures.