Apprentissage d'un réseau de graphes spatio-temporels à multiples granularités pour la reconnaissance d'actions basée sur les squelettes

La tâche de reconnaissance d’actions basée sur les squelettes reste un défi central dans le domaine de la compréhension des scènes centrées sur l’humain, en raison de la multiplicité des granularités et de la grande variabilité des mouvements humains. Les approches existantes utilisent généralement une seule représentation neuronale pour modéliser différents types de mouvements, ce qui rend difficile la capture des classes d’actions à très fine granularité, particulièrement en présence de données d’entraînement limitées. Pour surmonter ces limitations, nous proposons un nouveau réseau graphique spatio-temporel multi-granulaire pour la classification d’actions à partir de squelettes, capable de modéliser simultanément les motifs de mouvement grossiers et fins du squelette. À cette fin, nous avons conçu un réseau graphique à deux têtes composé de deux branches imbriquées, permettant une extraction efficace et efficace de caractéristiques à deux résolutions spatio-temporelles. En outre, notre architecture met en œuvre une stratégie de communication inter-têtes afin d’améliorer mutuellement les représentations des deux têtes. Nous avons mené des expériences approfondies sur trois jeux de données à grande échelle — NTU RGB+D 60, NTU RGB+D 120 et Kinetics-Skeleton — et obtenu des performances de pointe sur tous les benchmarks, ce qui confirme l’efficacité de notre méthode.