HyperAIHyperAI
vor 11 Tagen

MoFusion: Ein Framework zur Bewegungssynthese basierend auf Rauschunterdrückungs-Diffusionsmodellen

Rishabh Dabral, Muhammad Hamza Mughal, Vladislav Golyanik, Christian Theobalt
MoFusion: Ein Framework zur Bewegungssynthese basierend auf Rauschunterdrückungs-Diffusionsmodellen
Abstract

Herkömmliche Methoden zur menschlichen Bewegungssynthese sind entweder deterministisch oder leiden unter dem Kompromiss zwischen Bewegungsvielfalt und Bewegungsqualität. Um diesen Einschränkungen entgegenzuwirken, stellen wir MoFusion vor – ein neuartiges, auf Denoising-Diffusion basierendes Framework für hochwertige bedingte menschliche Bewegungssynthese, das lange, zeitlich plausibel und semantisch korrekte Bewegungen auf Basis einer Vielzahl von Bedingungskontexten (wie Musik und Text) generieren kann. Zudem präsentieren wir eine Strategie zur Integration bekannter kinematischer Verlustfunktionen zur Gewährleistung von Bewegungsplausibilität innerhalb des Bewegungs-Diffusionsrahmens durch eine zeitlich gesteuerte Gewichtung. Der gelernte latente Raum ermöglicht mehrere interaktive Anwendungen zur Bewegungsmodifikation – beispielsweise Zwischenbewegungserstellung (inbetweening), Seed-Conditioning und textbasierte Bearbeitung – und bietet somit entscheidende Fähigkeiten für die Animation virtueller Charaktere und die Robotik. Durch umfassende quantitative Evaluierungen sowie eine wahrnehmungsorientierte Nutzerstudie belegen wir die Überlegenheit von MoFusion gegenüber dem Stand der Technik auf etablierten Benchmarks aus der Literatur. Wir empfehlen dem Leser dringend, sich unser Zusatzvideo anzusehen und die Webseite https://vcai.mpi-inf.mpg.de/projects/MoFusion zu besuchen.

MoFusion: Ein Framework zur Bewegungssynthese basierend auf Rauschunterdrückungs-Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI