Apprentissage de représentation assisté par les connaissances linguistiques pour la reconnaissance d'actions basée sur les squelettes

La manière dont les humains comprennent et reconnaissent les actions des autres constitue un problème neuroscientifique complexe, impliquant une combinaison de mécanismes cognitifs et de réseaux neuronaux. Des recherches ont montré que l’homme possède des régions cérébrales spécialisées dans la reconnaissance des actions, capables de traiter des informations attentionnelles top-down, telles que la région associationnelle temporo-pariétale. Par ailleurs, des zones cérébrales spécifiques sont dédiées à la compréhension des esprits des autres et à l’analyse de leurs intentions, comme le cortex préfrontal médian du lobe temporal. La reconnaissance d’actions basée sur les squelettes établit des correspondances entre les motifs de mouvement du squelette humain et les comportements. Bien que les études existantes aient réussi à encoder des relations significatives entre nœuds et à synthétiser des représentations d’actions pour la classification avec de bons résultats, peu d’entre elles ont intégré des connaissances a priori afin d’aider l’apprentissage de représentations potentielles et d’améliorer les performances. LA-GCN propose un réseau de convolution de graphe utilisant une assistance fondée sur des modèles de langage à grande échelle (LLM). Tout d’abord, les connaissances issues du LLM sont mappées vers une topologie de relations a priori globales (GPR) et une topologie de relations a priori catégorielles (CPR) entre nœuds. La GPR guide la génération de nouvelles représentations « osseuses », visant à mettre en évidence les informations essentielles des nœuds au niveau des données. La cartographie CPR simule les connaissances a priori catégorielles présentes dans les régions cérébrales humaines, encodées par le module PC-AC, et est utilisée pour ajouter une supervision supplémentaire, forçant ainsi le modèle à apprendre des caractéristiques différenciant les classes. En outre, afin d’améliorer l’efficacité du transfert d’information dans la modélisation de la topologie, nous proposons une convolution de graphe à attention multi-sauts. Elle permet d’agréger simultanément les voisins d’ordre k de chaque nœud, accélérant ainsi la convergence du modèle. LA-GCN atteint l’état de l’art sur les jeux de données NTU RGB+D, NTU RGB+D 120 et NW-UCLA.