Apprentissage de générateurs d'actions humaines stochastiques diversifiés par apprentissage de transitions latentes fluides

La génération de mouvements humains est une tâche difficile et de longue date en raison de la nécessité de modéliser avec précision des motifs dynamiques complexes et variés. La plupart des méthodes existantes utilisent des modèles séquentiels comme les RNN pour modéliser directement les transitions dans l'espace d'action original. En raison de la haute dimensionalité et du bruit potentiel, une telle modélisation des transitions d'action est particulièrement ardue. Dans cet article, nous nous concentrons sur la génération d'actions basée sur le squelette et proposons de modéliser des transitions fluides et diverses dans un espace latent d'actions séquentielles à faible dimensionalité. Conditionné par une séquence latente, les actions sont générées par un décodeur frame par frame partagé par toutes les poses d'actions latentes. Plus précisément, un RNN implicite est défini pour modéliser des séquences latentes fluides, dont l'aléatoire (diversité) est contrôlé par le bruit provenant de l'entrée. Contrairement aux méthodes standard de prédiction d'actions, notre modèle peut générer des séquences d'actions à partir de bruit pur sans aucune pose d'action conditionnelle. De manière remarquable, il peut également générer des actions inconnues issues de classes mixtes pendant l'entraînement. Notre modèle est appris au moyen d'un cadre bi-directionnel de réseau génératif adversarial (GAN), qui non seulement peut générer des séquences d'actions diverses d'une classe particulière ou de classes mixtes, mais apprend également à classer les séquences d'actions au sein du même modèle. Les résultats expérimentaux montrent la supériorité de notre méthode tant en génération que en classification de séquences d'actions diverses, par rapport aux méthodes existantes.