HyperAIHyperAI
il y a 11 jours

Reconnaissance d’actions basée sur le squelette avec réseaux de convolution de graphe adaptatifs à multi-flots

Lei Shi, Yifan Zhang, Jian Cheng, Hanqing Lu
Reconnaissance d’actions basée sur le squelette avec réseaux de convolution de graphe adaptatifs à multi-flots
Résumé

Les réseaux de neurones à convolution graphique (GCN), qui généralisent les réseaux de neurones convolutifs (CNN) aux structures non euclidiennes plus générales, ont atteint des performances remarquables pour la reconnaissance d’actions basée sur les squelettes. Toutefois, les modèles GCN précédents souffrent encore de plusieurs limites. Premièrement, la topologie du graphe est définie de manière heuristique et reste fixe à travers toutes les couches du modèle et pour toutes les données d’entrée. Cette approche peut ne pas être adaptée à la hiérarchie inhérente aux GCN ni à la diversité des données présentes dans les tâches de reconnaissance d’actions humaines. Deuxièmement, l’information du second ordre des données squelettiques — à savoir les longueurs et orientations des os — est rarement exploitée, bien qu’elle soit naturellement plus informative et discriminante pour la reconnaissance des actions humaines. Dans ce travail, nous proposons un nouveau modèle de réseau de neurones convolutionnel graphique adaptatif à plusieurs flux amélioré par une attention (MS-AAGCN) pour la reconnaissance d’actions basée sur les squelettes. Dans notre modèle, la topologie du graphe peut être apprise de manière uniforme ou individuelle, en fonction des données d’entrée, de façon end-to-end. Cette approche pilotée par les données augmente la flexibilité du modèle pour la construction du graphe et améliore sa généralisation face à divers échantillons de données. En outre, la couche de convolution graphique adaptative est renforcée par un module d’attention spatiale-temporelle-canal, qui permet au modèle de se concentrer davantage sur les articulations, les trames et les caractéristiques les plus pertinentes. Enfin, notre architecture à plusieurs flux modélise simultanément les informations relatives aux articulations, aux os ainsi qu’à leurs mouvements, ce qui se traduit par une amélioration notable de la précision de reconnaissance. Des expériences étendues sur deux grands jeux de données, NTU-RGBD et Kinetics-Skeleton, démontrent que la performance de notre modèle dépasse significativement celle des méthodes de l’état de l’art.

Reconnaissance d’actions basée sur le squelette avec réseaux de convolution de graphe adaptatifs à multi-flots | Articles de recherche récents | HyperAI