vor 11 Tagen

T2M-GPT: Generierung menschlicher Bewegung aus textuellen Beschreibungen mit diskreten Darstellungen

Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu, Xi Shen

Abstract

In dieser Arbeit untersuchen wir einen einfachen und dennoch zentralen bedingten generativen Rahmen, der auf dem Vector Quantised-Variational Autoencoder (VQ-VAE) und dem Generative Pre-trained Transformer (GPT) basiert, zur Generierung menschlicher Bewegungen aus textuellen Beschreibungen. Wir zeigen, dass ein einfacher CNN-basierter VQ-VAE, der mit üblichen Trainingsstrategien (EMA und Code Reset) trainiert wird, hochwertige diskrete Darstellungen ermöglicht. Für den GPT integrieren wir während des Trainings eine einfache Störstrategie, um die Diskrepanz zwischen Training und Test zu verringern. Trotz seiner Einfachheit erreicht unser T2M-GPT eine bessere Leistung als konkurrierende Ansätze, einschließlich neuer Diffusions-basierter Methoden. Beispielsweise erzielen wir auf HumanML3D, dem derzeit größten Datensatz, vergleichbare Ergebnisse hinsichtlich der Konsistenz zwischen Text und generierter Bewegung (R-Precision), jedoch weisen wir mit einem FID von 0,116 eine deutlich bessere Leistung als MotionDiffuse (FID 0,630) auf. Zudem führen wir Analysen auf HumanML3D durch und stellen fest, dass die Datensatzgröße eine Einschränkung für unseren Ansatz darstellt. Unsere Arbeit zeigt, dass VQ-VAE weiterhin eine konkurrenzfähige Methode für die Generierung menschlicher Bewegungen bleibt.