Réseaux de neurones convolutifs graphiques à deux flux pour la reconnaissance d'actions basée sur le squelette

Dans le domaine de la reconnaissance d'actions basée sur les squelettes, les réseaux de convolution graphique (GCNs), qui modélisent les squelettes du corps humain sous forme de graphes spatio-temporels, ont obtenu des performances remarquables. Cependant, dans les méthodes actuelles basées sur les GCNs, la topologie du graphe est définie manuellement et reste fixe à travers toutes les couches et tous les échantillons d'entrée. Cette approche peut ne pas être optimale pour les GCNs hiérarchiques et les échantillons variés dans les tâches de reconnaissance d'actions. De plus, l'information du deuxième ordre (les longueurs et orientations des os) des données squelettiques, qui est naturellement plus informative et discriminante pour la reconnaissance d'actions, est rarement étudiée dans les méthodes existantes. Dans cette étude, nous proposons un nouveau réseau de convolution graphique à deux flux adaptatif (2s-AGCN) pour la reconnaissance d'actions basée sur les squelettes. La topologie du graphe dans notre modèle peut être apprise uniformément ou individuellement par l'algorithme de rétropropagation (BP) de manière end-to-end. Cette méthode pilotée par les données augmente la flexibilité du modèle pour la construction du graphe et apporte plus de généralité pour s'adapter à divers échantillons de données. De plus, un cadre à deux flux est proposé pour modéliser simultanément l'information du premier ordre et celle du deuxième ordre, ce qui montre une amélioration notable de la précision de reconnaissance. Des expériences approfondies sur deux grands ensembles de données, NTU-RGBD et Kinetics-Skeleton, démontrent que les performances de notre modèle surpassent l'état de l'art avec une marge significative.