BlockGCN : Redéfinir la prise de conscience de la topologie pour la reconnaissance d’actions basée sur les squelettes

Les réseaux de convolution sur graphes (GCN) ont longtemps représenté l’état de l’art dans la reconnaissance d’actions à partir de squelettes, grâce à leur capacité à modéliser les dynamiques complexes de la topologie des articulations humaines à l’aide de la matrice d’adjacence du graphe. Toutefois, une faille intrinsèque a émergé dans ces modèles de pointe : ils optimisent la matrice d’adjacence conjointement avec les poids du modèle. Ce processus, bien qu’apparemment efficace, entraîne une dégradation progressive des données de connectivité osseuse, conduisant à un modèle indifférent à la propre topologie qu’il cherchait à représenter. Pour remédier à ce problème, nous proposons une stratégie en deux volets : (1) Nous introduisons une approche innovante qui encode la connectivité osseuse en exploitant les distances de graphe pour décrire la topologie physique ; nous intégrons également une représentation topologique spécifique à l’action via une analyse de la homologie persistante, permettant ainsi de capturer les dynamiques systémiques. Cette méthode préserve les nuances topologiques essentielles souvent perdues dans les GCN classiques. (2) Notre étude révèle également une redondance inhérente aux GCN existantes dans le cadre du modélisation multi-relationnelle, que nous corrigeons en proposant une amélioration efficace de la convolution sur graphe (GC), baptisée BlockGC. Cette dernière réduit significativement le nombre de paramètres tout en améliorant les performances par rapport aux GCN originales. Notre modèle complet, BlockGCN, établit de nouveaux seuils de référence dans la reconnaissance d’actions à partir de squelettes, sur toutes les catégories de modèles. Son haut niveau de précision combiné à sa conception légère, notamment sur le grand jeu de données NTU RGB+D 120, constitue une validation solide de l’efficacité de BlockGCN.