HyperAIHyperAI
il y a 3 mois

Apprentissage d'un réseau de convolution sur graphe pour la reconnaissance d'actions humaines basée sur la structure squelettique par recherche neuronale

Wei Peng, Xiaopeng Hong, Haoyu Chen, Guoying Zhao
Apprentissage d'un réseau de convolution sur graphe pour la reconnaissance d'actions humaines basée sur la structure squelettique par recherche neuronale
Résumé

La reconnaissance d’actions humaines à partir de données squelettiques, stimulée par les réseaux de convolution sur graphe (Graph Convolutional Network, GCN), a suscité un intérêt croissant en raison de sa capacité remarquable à modéliser des données structurées non euclidiennes. Toutefois, de nombreuses méthodes GCN existantes définissent un graphe prédéfini et le maintiennent fixe tout au long du réseau, ce qui peut entraîner une perte des corrélations implicites entre les joints. En outre, la plupart des GCN spectrales sont approximées par un voisinage d’ordre un, ce qui limite l’exploitation des connexions d’ordre supérieur. Par conséquent, de nombreux efforts sont nécessaires pour explorer une architecture GCN améliorée. Pour résoudre ces problèmes, nous nous tournons vers la recherche d’architecture neuronale (Neural Architecture Search, NAS) et proposons le premier GCN conçu automatiquement pour la reconnaissance d’actions basée sur les squelettes. Plus précisément, nous élargissons l’espace de recherche en intégrant plusieurs modules de graphe dynamique, après une exploration approfondie des corrélations spatio-temporelles entre les nœuds. Par ailleurs, nous introduisons des modules à plusieurs sauts (multiple-hop) afin de surmonter la limitation de capacité de représentation imposée par l’approximation d’ordre un. En outre, une stratégie d’évolution efficace en termes d’échantillonnage et de mémoire est proposée pour rechercher une architecture optimale pour cette tâche. L’architecture obtenue démontre l’efficacité de l’approximation d’ordre supérieur ainsi que du mécanisme de modélisation de graphe dynamique prenant en compte les interactions temporelles, des aspects peu explorés jusqu’ici. Pour évaluer les performances du modèle recherché, nous menons des expériences étendues sur deux jeux de données de très grande taille. Les résultats montrent que notre modèle atteint des performances de pointe (state-of-the-art).