HyperAIHyperAI

Command Palette

Search for a command to run...

FineMoGen: Feinabstimmte räumlich-zeitliche Bewegungsgenerierung und -bearbeitung

Mingyuan Zhang Huirong Li Zhongang Cai Jiawei Ren Lei Yang Ziwei Liu

Zusammenfassung

Die bewegungsgetriebene Generierung von Bewegungssequenzen hat mit dem Aufkommen von Diffusionsmodellen erhebliche Fortschritte erzielt. Dennoch stoßen bestehende Methoden weiterhin auf Schwierigkeiten bei der Erzeugung komplexer Bewegungsabläufe, die feinabgestimmten Beschreibungen entsprechen und detaillierte sowie präzise räumlich-zeitliche Aktionen darstellen. Diese mangelnde Feinsteuerbarkeit begrenzt die Anwendungsmöglichkeiten der Bewegungsgenerierung auf eine breitere Nutzerbasis. Um diese Herausforderungen anzugehen, präsentieren wir FineMoGen, einen auf Diffusionsmodellen basierenden Rahmen für die Bewegungsgenerierung und -bearbeitung, der feinabgestimmte Bewegungen mit räumlich-zeitlicher Komposition gemäß Benutzeranweisungen synthetisieren kann. Konkret baut FineMoGen auf einem neuartigen Transformer-Architekturnamen Spatio-Temporal Mixture Attention (SAMI) auf. SAMI optimiert die Generierung der globalen Aufmerksamkeitsvorlage aus zwei Perspektiven: 1) der expliziten Modellierung der räumlich-zeitlichen Kompositionsbedingungen; und 2) der Nutzung von sparsam aktivierten Mixture-of-Experts zur adaptiven Extraktion feinabgestimmter Merkmale. Um eine umfassende, großskalige Studie dieser neuen Aufgabe der feinabgestimmten Bewegungsgenerierung zu ermöglichen, stellen wir die HuMMan-MoGen-Datenbank bereit, die aus 2.968 Videos und 102.336 feinabgestimmten räumlich-zeitlichen Beschreibungen besteht. Umfangreiche Experimente bestätigen, dass FineMoGen eine überlegene Qualität bei der Bewegungsgenerierung im Vergleich zu aktuellen State-of-the-Art-Methoden aufweist. Besonders hervorzuheben ist, dass FineMoGen dank moderner großer Sprachmodelle (LLM) auch zero-shot-Bewegungsbearbeitungsfähigkeiten ermöglicht, wodurch Bewegungssequenzen präzise mit feinabgestimmten Anweisungen manipuliert werden können. Projektseite: https://mingyuan-zhang.github.io/projects/FineMoGen.html


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp