HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentation assisté par les connaissances linguistiques pour la reconnaissance d'actions basée sur les squelettes

Haojun Xu Yan Gao Zheng Hui Jie Li Xinbo Gao

Résumé

La manière dont les humains comprennent et reconnaissent les actions des autres constitue un problème neuroscientifique complexe, impliquant une combinaison de mécanismes cognitifs et de réseaux neuronaux. Des recherches ont montré que l’homme possède des régions cérébrales spécialisées dans la reconnaissance des actions, capables de traiter des informations attentionnelles top-down, telles que la région associationnelle temporo-pariétale. Par ailleurs, des zones cérébrales spécifiques sont dédiées à la compréhension des esprits des autres et à l’analyse de leurs intentions, comme le cortex préfrontal médian du lobe temporal. La reconnaissance d’actions basée sur les squelettes établit des correspondances entre les motifs de mouvement du squelette humain et les comportements. Bien que les études existantes aient réussi à encoder des relations significatives entre nœuds et à synthétiser des représentations d’actions pour la classification avec de bons résultats, peu d’entre elles ont intégré des connaissances a priori afin d’aider l’apprentissage de représentations potentielles et d’améliorer les performances. LA-GCN propose un réseau de convolution de graphe utilisant une assistance fondée sur des modèles de langage à grande échelle (LLM). Tout d’abord, les connaissances issues du LLM sont mappées vers une topologie de relations a priori globales (GPR) et une topologie de relations a priori catégorielles (CPR) entre nœuds. La GPR guide la génération de nouvelles représentations « osseuses », visant à mettre en évidence les informations essentielles des nœuds au niveau des données. La cartographie CPR simule les connaissances a priori catégorielles présentes dans les régions cérébrales humaines, encodées par le module PC-AC, et est utilisée pour ajouter une supervision supplémentaire, forçant ainsi le modèle à apprendre des caractéristiques différenciant les classes. En outre, afin d’améliorer l’efficacité du transfert d’information dans la modélisation de la topologie, nous proposons une convolution de graphe à attention multi-sauts. Elle permet d’agréger simultanément les voisins d’ordre k de chaque nœud, accélérant ainsi la convergence du modèle. LA-GCN atteint l’état de l’art sur les jeux de données NTU RGB+D, NTU RGB+D 120 et NW-UCLA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp