Réfinement de la topologie par canal pour la convolution de graphe en reconnaissance d’actions basée sur les squelettes

Les réseaux de convolution sur graphe (GCN) sont largement utilisés et ont obtenu des résultats remarquables dans la reconnaissance d’actions basée sur les squelettes. Dans les GCN, la topologie du graphe domine l’agrégation des caractéristiques, étant ainsi essentielle pour extraire des représentations significatives. Dans ce travail, nous proposons une nouvelle méthode, appelée CTR-GC (Channel-wise Topology Refinement Graph Convolution), permettant d’apprendre dynamiquement des topologies différentes et d’agréger efficacement les caractéristiques des joints selon les canaux pour la reconnaissance d’actions basée sur les squelettes. Le CTR-GC modélise les topologies canal par canal en apprenant une topologie partagée comme une information a priori générique pour tous les canaux, puis en la raffinant à l’aide des corrélations spécifiques à chaque canal. Notre méthode de raffinement introduit un nombre négligeable de paramètres supplémentaires et réduit considérablement la difficulté de modélisation des topologies canal par canal. En outre, en reformulant les convolutions sur graphe sous une forme unifiée, nous montrons que le CTR-GC relâche les contraintes strictes imposées par les convolutions sur graphe, ce qui confère une capacité de représentation renforcée. En combinant le CTR-GC avec des modules de modélisation temporelle, nous avons développé un réseau de convolution sur graphe puissant, nommé CTR-GCN, qui surpassent notablement les méthodes de pointe sur les jeux de données NTU RGB+D, NTU RGB+D 120 et NW-UCLA.