HyperAIHyperAI
il y a 3 mois

Réseau de convolution de graphes multiples pour la prévision de posture

Hongwei Ren, Yuhong Shi, Kewei Liang
Réseau de convolution de graphes multiples pour la prévision de posture
Résumé

Récemment, un intérêt croissant s’est manifesté dans la prédiction du mouvement humain, une tâche consistant à anticiper les postures corporelles futures à partir de séquences observées de poses. Ce problème est complexe en raison de la nécessité de modéliser à la fois les relations spatiales et temporelles. Les modèles les plus couramment utilisés pour cette tâche sont les modèles autorégressifs, tels que les réseaux de neurones récurrents (RNN) ou leurs variantes, ainsi que les réseaux Transformer. Toutefois, les RNN présentent plusieurs inconvénients, notamment le phénomène de disparition ou d’explosion des gradients. D'autres chercheurs ont tenté de résoudre le problème de communication dans la dimension spatiale en intégrant des réseaux de convolution sur graphe (GCN) et des modèles de mémoire à long terme (LSTM). Ces approches traitent séparément les informations temporelles et spatiales, ce qui limite leur efficacité. Pour pallier ce défaut, nous proposons une nouvelle méthode appelée réseau de convolution multi-graphe (MGCN) pour la prévision des poses 3D du corps humain. Ce modèle capte simultanément les informations spatiales et temporelles en introduisant un graphe augmenté dédié aux séquences de poses. Plusieurs cadres donnent lieu à plusieurs parties, qui sont regroupées dans une seule instance de graphe. En outre, nous étudions également l’impact de la structure naturelle du corps humain ainsi que de l’attention sensible à la séquence sur les performances de notre modèle. Dans notre évaluation expérimentale sur des jeux de données de grande ampleur, tels que Human3.6M, AMSS et 3DPW, le MGCN dépasse les méthodes de pointe en matière de prédiction de poses.