EMDM : Modèle de diffusion de mouvement efficace pour une génération rapide et de haute qualité des mouvements

Nous présentons le modèle de diffusion de mouvement efficace (EMDM) pour la génération rapide et de haute qualité de mouvements humains. Les modèles de diffusion génératifs actuels ont produit des résultats impressionnants, mais ils peinent à accélérer la génération sans compromettre la qualité. D'une part, les travaux précédents, tels que la diffusion latente de mouvement, effectuent la diffusion dans un espace latent pour gagner en efficacité, mais l'apprentissage d'un tel espace latent peut être une tâche non négligeable. D'autre part, l'accélération de la génération par une augmentation naïve de la taille des pas d'échantillonnage, comme dans le cas du DDIM (Denoising Diffusion Implicit Models), entraîne souvent une dégradation de la qualité car elle échoue à approximer la distribution débruitante complexe.Pour résoudre ces problèmes, nous proposons l'EMDM, qui capture la distribution complexe au cours de plusieurs étapes d'échantillonnage dans le modèle de diffusion, permettant ainsi un nombre beaucoup plus réduit d'étapes d'échantillonnage et une accélération significative de la génération. Cela est réalisé grâce à un GAN (Generative Adversarial Network) conditionnel pour la diffusion débruitante, capable de capturer des distributions multimodales entre des tailles d'étapes arbitraires (et potentiellement plus grandes) conditionnées par des signaux de contrôle. Cette approche permet une génération de mouvements en moins d'étapes avec une fidélité et une diversité élevées. Pour minimiser les artefacts indésirables du mouvement, des pertes géométriques sont imposées lors de l'apprentissage du réseau.En conséquence, l'EMDM atteint une génération de mouvements en temps réel et améliore considérablement l'efficacité des modèles de diffusion de mouvement par rapport aux méthodes existantes tout en assurant une génération de mouvements de haute qualité. Notre code sera rendu publiquement disponible à la publication.