HyperAIHyperAI

Command Palette

Search for a command to run...

T2M-GPT: Generierung menschlicher Bewegung aus textuellen Beschreibungen mit diskreten Darstellungen

Jianrong Zhang Yangsong Zhang Xiaodong Cun Shaoli Huang Yong Zhang Hongwei Zhao Hongtao Lu Xi Shen

Zusammenfassung

In dieser Arbeit untersuchen wir einen einfachen und dennoch zentralen bedingten generativen Rahmen, der auf dem Vector Quantised-Variational Autoencoder (VQ-VAE) und dem Generative Pre-trained Transformer (GPT) basiert, zur Generierung menschlicher Bewegungen aus textuellen Beschreibungen. Wir zeigen, dass ein einfacher CNN-basierter VQ-VAE, der mit üblichen Trainingsstrategien (EMA und Code Reset) trainiert wird, hochwertige diskrete Darstellungen ermöglicht. Für den GPT integrieren wir während des Trainings eine einfache Störstrategie, um die Diskrepanz zwischen Training und Test zu verringern. Trotz seiner Einfachheit erreicht unser T2M-GPT eine bessere Leistung als konkurrierende Ansätze, einschließlich neuer Diffusions-basierter Methoden. Beispielsweise erzielen wir auf HumanML3D, dem derzeit größten Datensatz, vergleichbare Ergebnisse hinsichtlich der Konsistenz zwischen Text und generierter Bewegung (R-Precision), jedoch weisen wir mit einem FID von 0,116 eine deutlich bessere Leistung als MotionDiffuse (FID 0,630) auf. Zudem führen wir Analysen auf HumanML3D durch und stellen fest, dass die Datensatzgröße eine Einschränkung für unseren Ansatz darstellt. Unsere Arbeit zeigt, dass VQ-VAE weiterhin eine konkurrenzfähige Methode für die Generierung menschlicher Bewegungen bleibt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
T2M-GPT: Generierung menschlicher Bewegung aus textuellen Beschreibungen mit diskreten Darstellungen | Paper | HyperAI