EMDM: Effizientes Bewegungs-Diffusionsmodell für schnelle und hochwertige Bewegungsgenerierung

Wir stellen das Efficient Motion Diffusion Model (EMDM) vor, das schnelle und hochwertige Generierung menschlicher Bewegungen ermöglicht. Obwohl aktuelle state-of-the-art Generative Diffusion Modelle beeindruckende Ergebnisse erzielt haben, gelingt es ihnen oft nicht, eine schnelle Generierung ohne Qualitätsverlust zu erreichen. Einerseits führen frühere Arbeiten, wie die motion latent diffusion, Diffusion in einem latenten Raum durch, um Effizienz zu gewährleisten; das Lernen eines solchen latenten Raums kann jedoch ein nicht triviales Unterfangen sein. Andererseits führt eine naive Erhöhung der Schrittgröße bei der Stichprobenziehung, wie z.B. bei DDIM (Denoising Diffusion Implicit Models), häufig zu einer Verschlechterung der Qualität, da sie die komplexe Denoising-Verteilung nicht korrekt approximieren können.Um diese Probleme zu lösen, schlagen wir das EMDM vor. Dieses Modell erfasst die komplexe Verteilung während mehrerer Stichprobenziehungsschritte im Diffusionsmodell, was es ermöglicht, deutlich weniger Schritte durchzuführen und die Generierungsignale erheblich zu beschleunigen. Dies wird durch ein bedingtes Denoising-Diffusion-GAN erreicht, das multimodale Datenverteilungen unter beliebigen (und potentiell größeren) Schrittgrößen auf Grundlage von Kontrollsignalen erfasst. Dadurch ist eine Bewegungsgenerierung mit wenigen Schritten und hoher Treue sowie Vielfalt möglich. Um unerwünschte Bewegungsartefakte zu minimieren, werden geometrische Verlustfunktionen während des Netzwerklernens angewendet.Das Ergebnis ist eine Echtzeit-Bewegungsgenerierung und eine erhebliche Steigerung der Effizienz von Bewegungsdiffusionsmodellen im Vergleich zu bestehenden Methoden, wobei gleichzeitig eine hochwertige Bewegungsgenerierung sichergestellt wird. Unser Code wird nach der Veröffentlichung öffentlich zur Verfügung gestellt.