Command Palette
Search for a command to run...
Démêler et Unifier les Convolutions de Graphes pour la Reconnaissance d'Actions Basée sur le Squelette
Démêler et Unifier les Convolutions de Graphes pour la Reconnaissance d'Actions Basée sur le Squelette
Ziyu Liu Hongwen Zhang Zhenghao Chen Zhiyong Wang Wanli Ouyang
Résumé
Les graphes spatio-temporels sont largement utilisés par les algorithmes de reconnaissance d'actions basés sur le squelette pour modéliser la dynamique des actions humaines. Pour capturer des motifs de mouvement robustes à partir de ces graphes, l'agrégation de contexte à longue portée et à plusieurs échelles, ainsi que la modélisation des dépendances spatio-temporelles, sont des aspects cruciaux d'un extracteur de caractéristiques puissant. Cependant, les méthodes existantes présentent des limitations dans (1) la modélisation non biaisée des relations articulaires à longue portée sous des opérateurs multi-échelles et (2) le flux d'information non entravé entre les espaces-temps pour capturer des dépendances spatio-temporelles complexes. Dans ce travail, nous présentons (1) une méthode simple pour désentrelacer les convolutions graphiques multi-échelles et (2) un opérateur convolutif graphique spatio-temporel unifié nommé G3D. Le schéma d'agrégation multi-échelle proposé désentrelace l'importance des nœuds dans différents voisinages pour une modélisation efficace à longue portée. Le module G3D proposé utilise des arêtes denses entre les espaces-temps comme connexions résiduelles pour une propagation directe de l'information au sein du graphe spatio-temporel. En combinant ces propositions, nous développons un extracteur de caractéristiques puissant nommé MS-G3D, sur la base duquel notre modèle surpassent les méthodes précédentes de pointe sur trois jeux de données à grande échelle : NTU RGB+D 60, NTU RGB+D 120 et Kinetics Skeleton 400.