Réseaux de convolution graphique spatio-temporels continus

Le raisonnement basé sur les graphes appliqué aux données squelettiques s'est imposé comme une approche prometteuse pour la reconnaissance des actions humaines. Toutefois, l'application des méthodes graphes existantes, qui exploitent principalement des séquences temporelles complètes comme entrée, dans un cadre d'inférence en ligne, entraîne une redondance computationnelle considérable. Dans ce travail, nous abordons ce problème en reformulant le réseau neuronal à convolution de graphe spatio-temporel (ST-GCN) en un réseau d'inférence continue, capable d'effectuer des prédictions pas à pas dans le temps sans traiter à nouveau les mêmes cadres. Pour évaluer notre méthode, nous avons développé une version continue de ST-GCN, nommée CoST-GCN, ainsi que deux variantes dérivées utilisant différentes mécaniques d'attention auto-associative : CoAGCN et CoS-TR. Nous avons étudié des stratégies de transfert de poids et des modifications architecturales visant à accélérer l'inférence, et mené des expériences sur les jeux de données NTU RGB+D 60, NTU RGB+D 120 et Kinetics Skeleton 400. Conservez une précision prédictive similaire, nous observons une réduction allant jusqu'à 109 fois de la complexité temporelle, une accélération matérielle jusqu'à 26 fois, ainsi qu'une réduction de 52 % de la mémoire maximale allouée durant l'inférence en ligne.