Motion Anything: Any to Motion Generation

Die bedingte Bewegungsgenerierung wurde in der Computer Vision umfassend untersucht, zwei zentrale Herausforderungen bleiben jedoch bestehen. Erstens haben maskierte autoregressive Ansätze in letzter Zeit Verfahren auf Basis von Diffusion überflügelt, doch fehlen bestehenden Maskierungsmodellen Mechanismen zur Priorisierung dynamischer Frames und Körperregionen basierend auf gegebenen Bedingungen. Zweitens scheitern bestehende Methoden für verschiedene Bedingungsmodalitäten häufig an einer effektiven Integration mehrerer Modalitäten, was die Kontrollierbarkeit und Kohärenz der generierten Bewegungen einschränkt. Um diese Herausforderungen zu meistern, stellen wir Motion Anything vor – einen multimodalen Bewegungsgenerierungsrahmen, der einen auf Aufmerksamkeit basierenden Maskierungsansatz einführt und somit feinabgestimmte räumliche und zeitliche Kontrolle über Schlüsselbilder und Aktionen ermöglicht. Unser Modell kodiert multimodale Bedingungen, einschließlich Text und Musik, adaptiv und verbessert so die Kontrollierbarkeit. Zusätzlich präsentieren wir TMD (Text-Music-Dance), einen neuen Bewegungsdatensatz mit 2.153 Paaren aus Text, Musik und Tanz, der doppelt so groß ist wie AIST++ und somit eine entscheidende Lücke in der Forschungsgemeinschaft schließt. Ausführliche Experimente zeigen, dass Motion Anything state-of-the-art-Methoden auf mehreren Benchmarks übertrifft, wobei eine Verbesserung von 15 % im FID auf HumanML3D erreicht wird und konsistente Leistungssteigerungen auf AIST++ und TMD nachgewiesen werden. Weitere Informationen finden Sie auf unserer Projektwebsite: https://steve-zeyu-zhang.github.io/MotionAnything