Human Motion Diffusion als generativer Prior

Kürzlich wurde die erhebliche Potenzial von Denoising-Diffusionsmodellen für die Generierung menschlicher Bewegungen, einschließlich Text-zu-Bewegung-Fähigkeiten, nachgewiesen. Diese Ansätze sind jedoch durch die Knappheit an annotierten Bewegungsdaten, den Fokus auf Einzelpersonen-Bewegungen und das Fehlen detaillierter Steuerungsmöglichkeiten eingeschränkt. In diesem Paper stellen wir drei Formen der Komposition basierend auf Diffusionsprioritäten vor: sequenzielle, parallele und modellbasierte Komposition. Mittels sequenzieller Komposition lösen wir die Herausforderung der Generierung langer Bewegungssequenzen. Wir führen DoubleTake ein, eine inferenzzeitbasierte Methode, mit der wir lange Animationen aus hintereinander abgespielten, durch Prompts gesteuerten Intervallen sowie deren Übergängen generieren, wobei lediglich ein zuvor für kurze Clips trainiertes Prior verwendet wird. Mittels paralleler Komposition zeigen wir vielversprechende Fortschritte bei der Generierung von Bewegungen zweier Personen. Ausgehend von zwei festen Prioritäten sowie wenigen Trainingsbeispielen für Zweipersonen-Bewegungen lernen wir einen schlanken Kommunikationsblock, ComMDM, um die Interaktion zwischen den resultierenden Bewegungen zu koordinieren. Schließlich nutzen wir modellbasierte Komposition, indem wir zunächst einzelne Prioritäten trainieren, um Bewegungen zu vervollständigen, die eine vorgegebene Bewegung für eine bestimmte Gelenkposition realisieren. Anschließend führen wir DiffusionBlending ein, eine Interpolationsmechanik, um mehrere solcher Modelle effektiv zu kombinieren und so flexible, effiziente, feinabgestimmte Steuerung und Bearbeitung auf Gelenk- und Trajektorieebene zu ermöglichen. Wir evaluieren die Kompositionsansätze mit einem kommerziell verfügbaren Bewegungs-Diffusionsmodell und vergleichen die Ergebnisse zudem mit spezialisierten Modellen, die für diese spezifischen Aufgaben trainiert wurden.