Réseaux de convolution spatio-temporels sur graphes pour la reconnaissance d'actions basée sur le squelette

Les dynamiques des squelettes du corps humain transmettent des informations significatives pour la reconnaissance des actions humaines. Les approches conventionnelles pour modéliser les squelettes s'appuient généralement sur des parties conçues manuellement ou sur des règles de parcours, ce qui entraîne une puissance d'expression limitée et des difficultés de généralisation. Dans cette étude, nous proposons un nouveau modèle de squelettes dynamiques appelé Réseaux de Neurones Convolutifs Spatio-Temporels (ST-GCN), qui dépasse les limitations des méthodes précédentes en apprenant automatiquement à la fois les motifs spatiaux et temporels à partir des données. Cette formulation non seulement augmente la puissance d'expression, mais aussi la capacité de généralisation. Sur deux grands ensembles de données, Kinetics et NTU-RGBD, il obtient d'importantes améliorations par rapport aux méthodes courantes.