HyperAIHyperAI

Command Palette

Search for a command to run...

MoMask: Generative Masked Modeling von 3D-Human-Motionen

Chuan Guo Yuxuan Mu Muhammad Gohar Javed Sen Wang Li Cheng

Zusammenfassung

Wir stellen MoMask vor, einen neuartigen maskierten Modellierungsansatz für die textgesteuerte Generierung von 3D-Menschenbewegungen. In MoMask wird ein hierarchisches Quantisierungsverfahren eingesetzt, um menschliche Bewegungen als mehrschichtige, diskrete Bewegungstoken mit hochauflösenden Details darzustellen. Ausgehend von der Basis-Schicht, in der eine Folge von Bewegungstoken durch Vektor-Quantisierung erzeugt wird, werden die Rest-Token zunehmender Ordnung in den nachfolgenden Schichten der Hierarchie abgespeichert. Anschließend werden zwei unterschiedliche bidirektionale Transformer eingesetzt. Für die Bewegungstoken der Basis-Schicht ist ein Masked Transformer vorgesehen, der zufällig maskierte Bewegungstoken bedingt auf den Texteingang während des Trainings vorhersagt. Während der Generierung (d. h. während der Inferenz) füllt unser Masked Transformer ausgehend von einer leeren Sequenz iterativ die fehlenden Token auf. Anschließend lernt ein Residual Transformer, schrittweise die nächsten Schicht-Token basierend auf den Ergebnissen der aktuellen Schicht vorherzusagen. Umfangreiche Experimente zeigen, dass MoMask die derzeitigen State-of-the-Art-Methoden bei der Text-zu-Bewegung-Generierung übertrifft, mit einer FID von 0,045 (gegenüber beispielsweise 0,141 bei T2M-GPT) auf dem HumanML3D-Datensatz und 0,228 (gegenüber 0,514) auf KIT-ML. MoMask lässt sich zudem nahtlos auf verwandte Aufgaben anwenden, ohne dass eine zusätzliche Feinabstimmung des Modells erforderlich ist, beispielsweise bei der textgesteuerten zeitlichen Inpainting-Aufgabe.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MoMask: Generative Masked Modeling von 3D-Human-Motionen | Paper | HyperAI