MotionPCM : Synthèse de mouvement en temps réel avec un modèle de cohérence par phases

Les modèles de diffusion sont devenus un choix populaire pour la synthèse du mouvement humain en raison de leurs capacités génératives puissantes. Cependant, leur complexité computationnelle élevée et le grand nombre d'étapes d'échantillonnage posent des défis pour les applications en temps réel. Heureusement, le modèle de cohérence (Consistency Model, CM) offre une solution permettant de réduire considérablement le nombre d'étapes d'échantillonnage, passant de plusieurs centaines à quelques-unes, généralement moins de quatre, accélérant ainsi considérablement la synthèse des modèles de diffusion. Cependant, l'application du CM à la synthèse du mouvement humain conditionnée par du texte dans l'espace latent donne des résultats de génération insatisfaisants. Dans cet article, nous présentons \textbf{MotionPCM}, une approche basée sur un modèle de cohérence phasé conçue pour améliorer la qualité et l'efficacité de la synthèse en temps réel dans l'espace latent. Les résultats expérimentaux sur le jeu de données HumanML3D montrent que notre modèle réalise une inférence en temps réel à plus de 30 images par seconde avec une seule étape d'échantillonnage tout en surpassant l'état de l'art précédent avec une amélioration de 38,9\% en termes d'indice de divergence Fréchet (FID). Le code sera disponible pour permettre sa reproduction.