il y a 15 jours

Réseau d'attention graphique spatio-temporel pour la reconnaissance d'actions basée sur les squelettes

Lianyu Hu, Shenglan Liu, Wei Feng

Résumé

Il est courant que les méthodes actuelles en reconnaissance d’actions basées sur les squelettes se concentrent principalement sur la capture des dépendances temporelles à long terme, les séquences squelettiques étant généralement longues (supérieures à 128 trames), ce qui constitue un défi pour les approches antérieures. Dans ces conditions, les dépendances à court terme sont peu prises en compte formellement, bien qu’elles soient cruciales pour la classification d’actions similaires. La plupart des approches actuelles reposent sur une alternance de modules spatiaux uniquement et de modules temporels uniquement, ce qui entrave le flux direct d’informations entre les articulations de cadres adjacents, rendant ainsi leur capacité à capturer les mouvements à court terme et à distinguer les paires d’actions similaires insuffisante. Pour surmonter cette limitation, nous proposons un cadre général, nommé STGAT, destiné à modéliser le flux d’informations à travers l’espace et le temps. Ce cadre doté des modules spatiaux uniquement d’une capacité de modélisation spatio-temporelle pour une perception régionale. Bien que STGAT soit théoriquement efficace pour la modélisation spatio-temporelle, nous proposons trois modules simples afin de réduire la redondance des caractéristiques spatio-temporelles locales et d’exploiter pleinement le potentiel de STGAT : (1) restreindre le champ d’application du mécanisme d’attention auto-associative, (2) attribuer dynamiquement des poids aux articulations selon la dimension temporelle, et (3) séparer les mouvements subtils des caractéristiques statiques. En tant qu’extraiteur robuste de caractéristiques, STGAT se généralise mieux que les méthodes antérieures dans la classification d’actions similaires, comme le montrent à la fois les résultats qualitatifs et quantitatifs. STGAT atteint des performances de pointe sur trois jeux de données à grande échelle : NTU RGB+D 60, NTU RGB+D 120 et Kinetics Skeleton 400. Le code source est disponible.