MotionPCM: Echtzeit-Bewegungssynthese mit Phasenkonsistenzmodell

Diffusionsmodelle sind aufgrund ihrer leistungsstarker generativer Fähigkeiten zu einer beliebten Wahl für die Synthese menschlicher Bewegungen geworden. Ihre hohe rechnerische Komplexität und die großen Anzahl von Sampling-Schritten stellen jedoch Herausforderungen für Echtzeit-Anwendungen dar. Zum Glück bietet das Konsistenzmuster (Consistency Model, CM) eine Lösung, um die Anzahl der Sampling-Schritte von Hunderten auf wenige, typischerweise weniger als vier, zu reduzieren und somit die Synthese von Diffusionsmodellen erheblich zu beschleunigen. Allerdings führt die Anwendung des CM auf textbedingte Synthese menschlicher Bewegungen im Latenten Raum zu unzufriedenstellenden Generierungsergebnissen. In dieser Arbeit stellen wir \textbf{MotionPCM} vor, einen phasenbasierten Ansatz mit Konsistenzmuster, der entwickelt wurde, um die Qualität und Effizienz der Echtzeitsynthese im latenten Raum zu verbessern. Experimentelle Ergebnisse am HumanML3D-Datensatz zeigen, dass unser Modell bei einem einzelnen Sampling-Schritt eine Echtzeit-Inferenzrate von über 30 Bildern pro Sekunde erreicht und dabei den bisherigen Stand der Technik um 38,9 % in Bezug auf das Frechet-Inception-Distance (FID) übertrifft. Der Code wird zur Reproduktion verfügbar gemacht.