Convolution spatio-temporelle de graphes pour la reconnaissance d'actions basée sur le squelette

Les variations des squelettes humains peuvent être considérées comme des graphes dynamiques, qui constituent une représentation générique des données pour de nombreuses applications réelles. Dans cet article, nous proposons une approche de convolution spatio-temporelle sur graphe (STGC) visant à combiner les succès du filtrage convolutif local et la capacité d'apprentissage séquentiel de l'auto-régression mobile moyenne. Pour encoder ces graphes dynamiques, les filtres de convolution locale multi-échelle construits, composés de matrices de champs récepteurs locaux et de mappages de signaux, sont appliqués récursivement aux données structurées du graphe dans les domaines temporel et spatial. Le modèle proposé est générique et rigoureux car il peut être généralisé à d'autres modèles dynamiques. Nous démontrons théoriquement la stabilité de la STGC et fournissons une borne supérieure pour la transformation du signal à apprendre. De plus, le modèle récursif proposé peut être empilé dans une architecture multicouche. Pour évaluer notre modèle, nous menons des expériences approfondies sur quatre ensembles de données d'actions basés sur des squelettes de référence, y compris le vaste ensemble NTU RGB+D qui présente un défi important. Les résultats expérimentaux montrent l'efficacité de notre modèle proposé ainsi que son amélioration par rapport à l'état de l'art.