HyperAIHyperAI
il y a 2 mois

Démêler et Unifier les Convolutions de Graphes pour la Reconnaissance d'Actions Basée sur le Squelette

Liu, Ziyu ; Zhang, Hongwen ; Chen, Zhenghao ; Wang, Zhiyong ; Ouyang, Wanli
Démêler et Unifier les Convolutions de Graphes pour la Reconnaissance d'Actions Basée sur le Squelette
Résumé

Les graphes spatio-temporels sont largement utilisés par les algorithmes de reconnaissance d'actions basés sur le squelette pour modéliser la dynamique des actions humaines. Pour capturer des motifs de mouvement robustes à partir de ces graphes, l'agrégation de contexte à longue portée et à plusieurs échelles, ainsi que la modélisation des dépendances spatio-temporelles, sont des aspects cruciaux d'un extracteur de caractéristiques puissant. Cependant, les méthodes existantes présentent des limitations dans (1) la modélisation non biaisée des relations articulaires à longue portée sous des opérateurs multi-échelles et (2) le flux d'information non entravé entre les espaces-temps pour capturer des dépendances spatio-temporelles complexes. Dans ce travail, nous présentons (1) une méthode simple pour désentrelacer les convolutions graphiques multi-échelles et (2) un opérateur convolutif graphique spatio-temporel unifié nommé G3D. Le schéma d'agrégation multi-échelle proposé désentrelace l'importance des nœuds dans différents voisinages pour une modélisation efficace à longue portée. Le module G3D proposé utilise des arêtes denses entre les espaces-temps comme connexions résiduelles pour une propagation directe de l'information au sein du graphe spatio-temporel. En combinant ces propositions, nous développons un extracteur de caractéristiques puissant nommé MS-G3D, sur la base duquel notre modèle surpassent les méthodes précédentes de pointe sur trois jeux de données à grande échelle : NTU RGB+D 60, NTU RGB+D 120 et Kinetics Skeleton 400.

Démêler et Unifier les Convolutions de Graphes pour la Reconnaissance d'Actions Basée sur le Squelette | Articles de recherche récents | HyperAI