TEMOS : Génération de mouvements humains diversifiés à partir de descriptions textuelles

Nous abordons le problème de la génération de mouvements 3D humains diversifiés à partir de descriptions textuelles. Cette tâche exige une modélisation conjointe des deux modalités : comprendre et extraire des informations pertinentes centrées sur l’humain à partir du texte, puis générer des séquences plausibles et réalistes de postures humaines. Contrairement à la plupart des travaux antérieurs, qui se concentrent sur la génération d’un seul mouvement déterministe à partir d’une description textuelle, nous proposons une approche variationnelle capable de produire plusieurs mouvements humains diversifiés. Nous introduisons TEMOS, un modèle génératif conditionné par le texte, qui exploite l’apprentissage par auto-encodeur variationnel (VAE) sur des données de mouvement humain, combiné à un encodeur de texte capable de produire des paramètres de distribution compatibles avec l’espace latent du VAE. Nous démontrons que le cadre TEMOS permet non seulement de générer des animations basées sur des squelettes, comme dans les travaux antérieurs, mais aussi des mouvements corporels plus expressifs à l’aide du modèle SMPL. Nous évaluons notre approche sur le benchmark KIT Motion-Language et, malgré sa simplicité relative, obtenons des améliorations significatives par rapport à l’état de l’art. Le code et les modèles sont disponibles sur notre page web.