MotionLCM : Génération en temps réel de mouvements contrôlables à l’aide d’un modèle de cohérence latente

Ce travail présente MotionLCM, une extension de la génération de mouvements contrôlables au niveau temps réel. Les méthodes existantes de contrôle spatial dans la génération de mouvements conditionnés par le texte souffrent d’une inefficacité importante en temps d’exécution. Pour résoudre ce problème, nous proposons tout d’abord le modèle de cohérence latente pour les mouvements (MotionLCM), fondé sur le modèle de diffusion latente (MLD). En utilisant une inférence à une étape (ou à quelques étapes), nous améliorons davantage l’efficacité en temps d’exécution du modèle de diffusion latente pour la génération de mouvements. Afin de garantir une contrôle efficace, nous intégrons un ControlNet pour les mouvements dans l’espace latent de MotionLCM, permettant d’appliquer des signaux de contrôle explicites (par exemple, la trajectoire du bassin) directement dans l’espace de mouvement original, de manière similaire au contrôle des autres modèles de diffusion sans latence pour la génération de mouvements. Grâce à ces techniques, notre approche permet de générer des mouvements humains en temps réel à partir de textes et de signaux de contrôle. Les résultats expérimentaux démontrent les capacités remarquables de génération et de contrôle de MotionLCM, tout en maintenant une efficacité en temps réel.