HyperAIHyperAI
vor 11 Tagen

FineMoGen: Feinabstimmte räumlich-zeitliche Bewegungsgenerierung und -bearbeitung

Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu
FineMoGen: Feinabstimmte räumlich-zeitliche Bewegungsgenerierung und -bearbeitung
Abstract

Die bewegungsgetriebene Generierung von Bewegungssequenzen hat mit dem Aufkommen von Diffusionsmodellen erhebliche Fortschritte erzielt. Dennoch stoßen bestehende Methoden weiterhin auf Schwierigkeiten bei der Erzeugung komplexer Bewegungsabläufe, die feinabgestimmten Beschreibungen entsprechen und detaillierte sowie präzise räumlich-zeitliche Aktionen darstellen. Diese mangelnde Feinsteuerbarkeit begrenzt die Anwendungsmöglichkeiten der Bewegungsgenerierung auf eine breitere Nutzerbasis. Um diese Herausforderungen anzugehen, präsentieren wir FineMoGen, einen auf Diffusionsmodellen basierenden Rahmen für die Bewegungsgenerierung und -bearbeitung, der feinabgestimmte Bewegungen mit räumlich-zeitlicher Komposition gemäß Benutzeranweisungen synthetisieren kann. Konkret baut FineMoGen auf einem neuartigen Transformer-Architekturnamen Spatio-Temporal Mixture Attention (SAMI) auf. SAMI optimiert die Generierung der globalen Aufmerksamkeitsvorlage aus zwei Perspektiven: 1) der expliziten Modellierung der räumlich-zeitlichen Kompositionsbedingungen; und 2) der Nutzung von sparsam aktivierten Mixture-of-Experts zur adaptiven Extraktion feinabgestimmter Merkmale. Um eine umfassende, großskalige Studie dieser neuen Aufgabe der feinabgestimmten Bewegungsgenerierung zu ermöglichen, stellen wir die HuMMan-MoGen-Datenbank bereit, die aus 2.968 Videos und 102.336 feinabgestimmten räumlich-zeitlichen Beschreibungen besteht. Umfangreiche Experimente bestätigen, dass FineMoGen eine überlegene Qualität bei der Bewegungsgenerierung im Vergleich zu aktuellen State-of-the-Art-Methoden aufweist. Besonders hervorzuheben ist, dass FineMoGen dank moderner großer Sprachmodelle (LLM) auch zero-shot-Bewegungsbearbeitungsfähigkeiten ermöglicht, wodurch Bewegungssequenzen präzise mit feinabgestimmten Anweisungen manipuliert werden können. Projektseite: https://mingyuan-zhang.github.io/projects/FineMoGen.html

FineMoGen: Feinabstimmte räumlich-zeitliche Bewegungsgenerierung und -bearbeitung | Neueste Forschungsarbeiten | HyperAI