vor 16 Tagen

MoMask: Generative Masked Modeling von 3D-Human-Motionen

Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng

Abstract

Wir stellen MoMask vor, einen neuartigen maskierten Modellierungsansatz für die textgesteuerte Generierung von 3D-Menschenbewegungen. In MoMask wird ein hierarchisches Quantisierungsverfahren eingesetzt, um menschliche Bewegungen als mehrschichtige, diskrete Bewegungstoken mit hochauflösenden Details darzustellen. Ausgehend von der Basis-Schicht, in der eine Folge von Bewegungstoken durch Vektor-Quantisierung erzeugt wird, werden die Rest-Token zunehmender Ordnung in den nachfolgenden Schichten der Hierarchie abgespeichert. Anschließend werden zwei unterschiedliche bidirektionale Transformer eingesetzt. Für die Bewegungstoken der Basis-Schicht ist ein Masked Transformer vorgesehen, der zufällig maskierte Bewegungstoken bedingt auf den Texteingang während des Trainings vorhersagt. Während der Generierung (d. h. während der Inferenz) füllt unser Masked Transformer ausgehend von einer leeren Sequenz iterativ die fehlenden Token auf. Anschließend lernt ein Residual Transformer, schrittweise die nächsten Schicht-Token basierend auf den Ergebnissen der aktuellen Schicht vorherzusagen. Umfangreiche Experimente zeigen, dass MoMask die derzeitigen State-of-the-Art-Methoden bei der Text-zu-Bewegung-Generierung übertrifft, mit einer FID von 0,045 (gegenüber beispielsweise 0,141 bei T2M-GPT) auf dem HumanML3D-Datensatz und 0,228 (gegenüber 0,514) auf KIT-ML. MoMask lässt sich zudem nahtlos auf verwandte Aufgaben anwenden, ohne dass eine zusätzliche Feinabstimmung des Modells erforderlich ist, beispielsweise bei der textgesteuerten zeitlichen Inpainting-Aufgabe.