Human Motion Diffusion Model

Die generative Erzeugung natürlicher und ausdrucksstarker menschlicher Bewegungen gilt als das „Heilige Gral“ der Computeranimation. Dies ist eine herausfordernde Aufgabe, bedingt durch die Vielfalt möglicher Bewegungen, die hohe menschliche Wahrnehmungssensibilität dafür sowie die Schwierigkeit, sie präzise zu beschreiben. Daher sind aktuelle generative Ansätze entweder von geringer Qualität oder in ihrer Ausdruckskraft eingeschränkt. Diffusionsmodelle, die bereits in anderen Domänen bemerkenswerte generative Fähigkeiten demonstriert haben, sind aufgrund ihrer vielfältigen Zuordnungsrelationen (many-to-many) vielversprechende Kandidaten für die menschliche Bewegungsgenerierung, neigen jedoch dazu, ressourcenintensiv zu sein und schwer steuerbar zu sein. In diesem Paper stellen wir den Motion Diffusion Model (MDM) vor, ein sorgfältig angepasstes, klassifikatorfreies Diffusionsmodell für den Bereich menschlicher Bewegungen. MDM basiert auf der Transformer-Architektur und integriert Erkenntnisse aus der Literatur zur Bewegungsgenerierung. Eine bemerkenswerte Entwurfsentscheidung ist die Vorhersage des Samples selbst anstelle des Rauschterms in jedem Diffusions-Schritt. Dies erleichtert die Anwendung etablierter geometrischer Verlustfunktionen für Positionen und Geschwindigkeiten der Bewegung, beispielsweise der Fußkontaktverlustfunktion. Wie wir zeigen, ist MDM ein generischer Ansatz, der verschiedene Bedingungsformen und unterschiedliche Generierungsaufgaben ermöglicht. Wir demonstrieren, dass unser Modell mit geringem Ressourcenverbrauch trainiert werden kann und dennoch auf führenden Benchmarks für Text-zu-Bewegung und Action-zu-Bewegung Ergebnisse auf höchstem Niveau erzielt. https://guytevet.github.io/mdm-page/