HyperAIHyperAI

Command Palette

Search for a command to run...

BAMM: Bidirektionales autoregressives Bewegungsmodell

Ekkasit Pinyoanuntapong Muhammad Usama Saleem Pu Wang Minwoo Lee Srijan Das Chen Chen

Zusammenfassung

Die Generierung menschlicher Bewegungen aus Text wurde bisher dominierend durch Därmungs-Bewegungsmodelle beeinflusst, die entweder über Diffusions- oder generative-Masking-Prozesse arbeiten. Diese Modelle stoßen jedoch auf erhebliche Einschränkungen hinsichtlich der Benutzerfreundlichkeit, da sie Vorwissen über die Bewegungslänge erfordern. Im Gegensatz dazu adressieren autoregressive Bewegungsmodelle diese Einschränkung durch adaptive Vorhersage der Bewegungsendpunkte, wobei jedoch die Qualität der Generierung und die Editierbarkeit leiden. Um diese Herausforderungen zu bewältigen, stellen wir den Bidirektionalen Autoregressiven Bewegungsmodell (BAMM) vor, einen neuartigen Ansatz für die Text-zu-Bewegung-Generierung. BAMM besteht aus zwei zentralen Komponenten: (1) einem Bewegungstokenizer, der 3D-Menschenbewegungen in diskrete Tokens im latenzraum transformiert, und (2) einem maskierten Self-Attention-Transformer, der zufällig maskierte Tokens autoregressiv mittels einer hybriden Aufmerksamkeitsmaskierungsstrategie vorhersagt. Durch die Vereinigung generativer Maskierungsmodellierung und autoregressiver Modellierung erfasst BAMM reichhaltige und bidirektionale Abhängigkeiten zwischen Bewegungstokens und lernt gleichzeitig die probabilistische Abbildung von textuellen Eingaben auf Bewegungsausgaben mit dynamisch angepasster Bewegungssequenzlänge. Diese Eigenschaft ermöglicht es BAMM, gleichzeitig hochwertige Bewegungsgenerierung mit verbesserter Benutzerfreundlichkeit und integrierter Editierbarkeit zu erreichen. Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass BAMM gegenwärtige State-of-the-Art-Methoden sowohl qualitativ als auch quantitativ übertrifft. Die Projektseite ist unter https://exitudio.github.io/BAMM-page verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp