InfoGCN : Apprentissage de représentation pour la reconnaissance d'actions basée sur les squelettes humains

La reconnaissance d’actions basée sur le squelette humain constitue un moyen précieux pour comprendre les subtilités du comportement humain, car elle permet de modéliser les relations complexes entre contraintes physiques et intentions. Bien que plusieurs études se soient concentrées sur l’encodage du squelette, moins d’attention a été portée à l’intégration de ces informations dans les représentations latentes des actions humaines. InfoGCN propose un cadre d’apprentissage pour la reconnaissance d’actions combinant une nouvelle fonction objectif et une méthode d’encodage. Tout d’abord, nous concevons une fonction objectif basée sur le goulot d’étranglement d’information afin de guider le modèle vers l’apprentissage de représentations latentes à la fois informatives et compactes. Afin de fournir des informations discriminantes pour la classification des actions, nous introduisons une convolution de graphe basée sur l’attention, capable de capturer la topologie intrinsèque dépendante du contexte des actions humaines. En outre, nous proposons une représentation multi-modale du squelette fondée sur les positions relatives des articulations, conçue pour apporter des informations spatiales complémentaires aux articulations. InfoGCN dépasse les états de l’art connus sur plusieurs benchmarks de reconnaissance d’actions basés sur le squelette, atteignant une précision de 93,0 % sur le split cross-sujet du NTU RGB+D 60, 89,8 % sur le split cross-sujet du NTU RGB+D 120, et 97,0 % sur NW-UCLA.