Réseaux de convolution de graphe décomposés hiérarchiquement pour la reconnaissance d’actions basée sur les squelettes

Les réseaux de convolution sur graphes (GCN) sont les méthodes les plus couramment utilisées pour la reconnaissance d’actions basée sur les squelettes et ont atteint des performances remarquables. La génération de matrices d’adjacence comportant des arêtes ayant une signification sémantique est particulièrement importante pour cette tâche, mais l’extraction de telles arêtes constitue un problème difficile. Pour y remédier, nous proposons une architecture de réseau de convolution sur graphes hiérarchiquement décomposé (HD-GCN) associée à un nouveau graphe hiérarchiquement décomposé (HD-Graph). Le HD-GCN proposé décompose efficacement chaque nœud articulaire en plusieurs ensembles afin d’extraire les arêtes principales adjacentes structurellement et éloignées, puis les utilise pour construire un HD-Graph contenant ces arêtes dans des espaces sémantiques cohérents par rapport au squelette humain. Par ailleurs, nous introduisons un module d’agrégation hiérarchique guidée par attention (A-HA) afin de mettre en évidence les ensembles d’arêtes hiérarchiques dominants du HD-Graph. En outre, nous appliquons une nouvelle méthode d’ensembles à six voies, qui utilise uniquement les flux de joints et de segments osseux, sans aucun flux de mouvement. Le modèle proposé est évalué et atteint des performances de pointe sur quatre grands jeux de données populaires. Enfin, nous démontrons l’efficacité de notre modèle à travers diverses expériences comparatives.