HyperAIHyperAI
vor 11 Tagen

MMM: Generative Masked Motion Model

Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen
MMM: Generative Masked Motion Model
Abstract

Neuere Fortschritte bei der Text-zu-Bewegungsgenerierung mithilfe von Diffusions- und autoregressiven Modellen haben vielversprechende Ergebnisse gezeigt. Diese Modelle leiden jedoch oft unter einem Kompromiss zwischen Echtzeitfähigkeit, hoher Fidelität und Bewegungseditierbarkeit. Um diese Lücke zu schließen, stellen wir MMM vor – ein neuartiges, dennoch einfaches Paradigma für Bewegungsgenerierung basierend auf dem Masked Motion Model (MMM). MMM besteht aus zwei zentralen Komponenten: (1) einem Bewegungstokenizer, der 3D-Menschenbewegungen in eine Folge diskreter Tokens im latente Raum transformiert, und (2) einem bedingten maskierten Bewegungstransformer, der lernt, zufällig maskierte Bewegungstokens vorherzusagen, unter der Bedingung vorab berechneter Texttokens. Durch die gleichzeitige Berücksichtigung von Bewegungs- und Texttokens in allen Richtungen erfasst MMM explizit die inhärenten Abhängigkeiten zwischen Bewegungstokens und die semantische Zuordnung zwischen Bewegungs- und Texttokens. Während der Inferenz ermöglicht dies eine parallele und iterative Dekodierung mehrerer Bewegungstokens, die hochgradig konsistent mit feinkörnigen Textbeschreibungen sind, wodurch gleichzeitig hohe Fidelität und hohe Geschwindigkeit bei der Bewegungsgenerierung erreicht werden. Zudem besitzt MMM inhärente Editierbarkeit: Indem man einfach Maskentokens an die Stellen setzt, die bearbeitet werden sollen, füllt MMM die Lücken automatisch aus und gewährleistet dabei nahtlose Übergänge zwischen bearbeiteten und nicht bearbeiteten Bereichen. Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass MMM gegenwärtige führende Methoden bei der Generierung hochwertiger Bewegungen übertrifft (belegt durch überlegene FID-Scores von 0,08 und 0,429), während es zudem erweiterte Editierfunktionen wie Körperteilmodifikation, Bewegungsinbetweening und die Synthese langer Bewegungssequenzen bietet. Zudem ist MMM auf einer einzigen mittleren GPU um zwei Größenordnungen schneller als editierbare Bewegungs-Diffusionsmodelle. Die Projektseite ist unter \url{https://exitudio.github.io/MMM-page} verfügbar.

MMM: Generative Masked Motion Model | Neueste Forschungsarbeiten | HyperAI