Génération de séquences convolutives pour la synthèse d’actions basée sur les squelettes
Dans ce travail, nous visons à générer des actions longues représentées sous la forme de séquences de squelettes. Les séquences générées doivent illustrer des actions humaines continues et significatives, tout en préservant une cohérence entre les différentes parties du corps. Contrairement à la génération séquentielle des squelettes selon un modèle autoregressif, nous proposons un cadre qui génère l’intégralité de la séquence d’un seul coup, en effectuant une transformation à partir d’une séquence de vecteurs latents échantillonnés à partir d’un processus gaussien (GP). Ce cadre, nommé Réseau de Génération de Séquences Convolutif (CSGN), modélise simultanément les structures dans les dimensions temporelle et spatiale. Il capture la structure temporelle à plusieurs échelles grâce au prior du processus gaussien et aux convolutions temporelles, tout en établissant des connexions spatiales entre les vecteurs latents et les graphes de squelette via un nouveau schéma d’affinement de graphe. Il est à noter que CSGN permet des transformations bidirectionnelles entre l’espace latent et l’espace observé, ce qui permet une manipulation sémantique des séquences d’actions sous diverses formes. Nous avons mené des études empiriques sur plusieurs jeux de données, y compris un ensemble de séquences de danse de haute qualité collectées par nous-mêmes. Les résultats montrent que notre cadre est capable de produire des séquences d’actions longues, cohérentes à travers les étapes temporelles et entre les différentes parties du corps.