MotionDiffuse: textgesteuerte Generierung menschlicher Bewegungen mit einem Diffusionsmodell

Die Modellierung menschlicher Bewegungen ist für viele moderne grafische Anwendungen von großer Bedeutung, wobei diese typischerweise professionelle Fachkenntnisse erfordern. Um die fachlichen Hürden für Laien zu überwinden, können neuere Bewegungsgenerierungsmethoden menschliche Bewegungen direkt auf der Grundlage natürlicher Sprache erzeugen. Dennoch bleibt die Erzeugung vielfältiger und fein abgestimmter Bewegungen unter Verwendung verschiedener Texteingaben weiterhin herausfordernd. Um dieses Problem anzugehen, stellen wir MotionDiffuse vor – den ersten auf Diffusionsmodellen basierenden, textgesteuerten Rahmen für die Bewegungsgenerierung, der gegenüber bestehenden Ansätzen mehrere erwünschte Eigenschaften aufweist: 1) Wahrscheinlichkeitsbasierte Abbildung. Im Gegensatz zu einer deterministischen Sprache-Bewegung-Zuordnung erzeugt MotionDiffuse Bewegungen durch eine Reihe von Entrauschungsschritten, wobei gezielt Variationen eingefügt werden. 2) Realistische Synthese. MotionDiffuse zeichnet sich durch eine hervorragende Fähigkeit aus, komplexe Datenverteilungen zu modellieren und lebendige Bewegungssequenzen zu generieren. 3) Mehrstufige Manipulation. MotionDiffuse reagiert auf fein abgestimmte Anweisungen bezüglich einzelner Körperteile und ermöglicht die Synthese von Bewegungen beliebiger Länge mit zeitlich variierenden Textprompts. Unsere Experimente zeigen, dass MotionDiffuse bestehende State-of-the-Art-Methoden bei der textgesteuerten und handlungsbedingten Bewegungsgenerierung überzeugend schlägt. Eine qualitative Analyse unterstreicht zudem die Kontrollierbarkeit von MotionDiffuse für umfassende Bewegungsgenerierung. Homepage: https://mingyuan-zhang.github.io/projects/MotionDiffuse.html