Exécution de vos commandes via la diffusion de mouvement dans l'espace latent

Nous étudions une tâche difficile : la génération conditionnelle de mouvements humains, qui consiste à produire des séquences de mouvements humains plausibles à partir de diverses entrées conditionnelles, telles que des classes d’actions ou des descripteurs textuels. Étant donné que les mouvements humains sont extrêmement diversifiés et présentent une distribution très différente des modalités conditionnelles — par exemple, les descripteurs textuels en langage naturel — il est complexe d’apprendre une application probabiliste allant de la modality conditionnelle souhaitée vers les séquences de mouvements humains. Par ailleurs, les données brutes de mouvement issues de systèmes de capture de mouvement peuvent être redondantes dans les séquences et contenir des bruits ; modéliser directement la distribution conjointe sur les séquences de mouvement brutes et les modalités conditionnelles entraînerait un surcroît de charge computationnelle important, pouvant aussi introduire des artefacts dus aux bruits capturés. Pour apprendre une représentation améliorée des diverses séquences de mouvements humains, nous proposons tout d’abord un puissant Autoencodeur Variationnel (VAE), permettant d’obtenir un code latent représentatif et à faible dimension pour chaque séquence de mouvement humain. Ensuite, au lieu d’utiliser un modèle de diffusion pour établir directement les liens entre les séquences de mouvement brutes et les entrées conditionnelles, nous appliquons un processus de diffusion dans l’espace latent du mouvement. Le modèle proposé, le Motion Latent-based Diffusion (MLD), parvient à générer des séquences de mouvements riches et réalistes conformes aux entrées conditionnelles, tout en réduisant de manière significative la charge computationnelle, tant durant l’entraînement que pendant l’inférence. Des expériences étendues sur diverses tâches de génération de mouvements humains démontrent que notre MLD atteint des améliorations substantielles par rapport aux méthodes de pointe, avec une vitesse deux ordres de grandeur supérieure à celle des modèles de diffusion précédents sur les séquences de mouvement brutes.