Transformateur Hypergraphe pour la Reconnaissance d'Actions Fondée sur les Squelettes

La reconnaissance d’actions basée sur le squelette vise à identifier les actions humaines à partir des coordonnées des articulations humaines, ainsi que des connexions squelettiques naturelles entre elles. En définissant un graphe dont les sommets représentent les articulations et les arêtes les connexions naturelles entre elles, les travaux antérieurs ont efficacement appliqué les réseaux de convolution de graphe (GCN) pour modéliser les co-occurrences des articulations, obtenant ainsi des performances supérieures. Plus récemment, une limitation des GCN a été identifiée : la topologie du graphe est fixe après l’entraînement. Pour relâcher cette contrainte, le mécanisme d’attention auto-associative (Self-Attention, SA) a été intégré afin de rendre la topologie des GCN adaptative aux entrées, conduisant à des modèles hybrides de pointe. Parallèlement, des tentatives utilisant des Transformers purs ont été menées, mais ils restent inférieurs aux méthodes basées sur les GCN les plus avancées en raison du manque de prior structurel. Contrairement aux modèles hybrides, nous proposons une solution plus élégante pour intégrer la connectivité osseuse dans les Transformers via une embedding basée sur la distance dans le graphe. Notre embedding préserve l’information structurelle squelettique durant l’entraînement, alors que les GCN n’utilisent cette information qu’à l’initialisation. Plus important encore, nous mettons en évidence un problème fondamental des modèles basés sur les graphes en général : l’agrégation par paires ignore essentiellement les dépendances cinématiques d’ordre supérieur entre les articulations du corps. Pour combler cette lacune, nous proposons un nouveau mécanisme d’attention auto-associative sur hypergraphe, appelé Hypergraph Self-Attention (HyperSA), permettant d’intégrer des relations intrinsèques d’ordre supérieur dans le modèle. Nous nommons le modèle résultant Hyperformer, qui surpasse les modèles graphiques de pointe en termes de précision et d’efficacité sur les jeux de données NTU RGB+D, NTU RGB+D 120 et Northwestern-UCLA.