T2M-GPT : Génération de mouvements humains à partir de descriptions textuelles à l’aide de représentations discrètes

Dans ce travail, nous étudions un cadre génératif conditionnel simple mais fondamental, basé sur le Vector Quantised-Variational Autoencoder (VQ-VAE) et le Générateur Pré-entraîné à Transformer (GPT), pour la génération de mouvements humains à partir de descriptions textuelles. Nous démontrons qu’un VQ-VAE basé sur un réseau de convolution (CNN) simple, entraîné avec des méthodes classiques (EMA et Code Reset), permet d’obtenir des représentations discrètes de haute qualité. Concernant le GPT, nous intégrons une stratégie de corruption simple pendant l’entraînement afin de réduire le décalage entre l’entraînement et le test. Malgré sa simplicité, notre modèle T2M-GPT obtient des performances supérieures à celles des approches concurrentes, y compris certaines méthodes récentes basées sur la diffusion. Par exemple, sur le jeu de données HumanML3D, actuellement le plus volumineux, nous atteignons une précision de R (R-Precision) comparable à celle de l’état de l’art en termes de cohérence entre le texte et le mouvement généré, tout en obtenant un score FID de 0,116, largement supérieur au score de 0,630 atteint par MotionDiffuse. En outre, nous menons une analyse approfondie sur HumanML3D et constatons que la taille du jeu de données constitue une limitation de notre approche. Nos résultats suggèrent que le VQ-VAE demeure une méthode compétitive pour la génération de mouvements humains.