MotionGPT: Humane Bewegung als Fremdsprache

Obwohl die Entwicklung von vortrainierten großen Sprachmodellen fortschreitet, bleibt die Erkundung der Schaffung eines einheitlichen Modells für Sprache und andere multimodale Daten, wie Bewegung, weiterhin herausfordernd und bisher unberührt. Zum Glück zeigt menschliche Bewegung eine semantische Kopplung, die der menschlichen Sprache ähnelt und oft als Form der Körpersprache wahrgenommen wird. Durch die Fusion von Sprachdaten mit großskaligen Bewegungsmodellen wird eine vortrainierte Bewegungs-Sprach-Modellierung möglich, die die Leistungsfähigkeit bei bewegungsbezogenen Aufgaben verbessern kann. Gestützt auf diese Erkenntnis schlagen wir MotionGPT vor, ein einheitliches, vielseitiges und benutzerfreundliches Bewegungs-Sprach-Modell zur Bearbeitung mehrerer bewegungsrelevanter Aufgaben. Insbesondere verwenden wir die diskrete Vektorkuantisierung für menschliche Bewegungen und transformieren 3D-Bewegungen in Bewegungstoken, ähnlich dem Generierungsprozess von Worttoken. Auf dieser „Bewegungsvokabular“ basierend führen wir eine sprachliche Modellierung sowohl für Bewegungen als auch für Texte durch, wobei menschliche Bewegungen als spezifische Sprache behandelt werden. Darüber hinaus inspiriert uns das Prompt-Lernen: Wir pretrainieren MotionGPT mit einer Mischung aus Bewegungs-Sprach-Daten und feinjustieren es anhand promptbasierter Frage-Antwort-Aufgaben. Umfangreiche Experimente zeigen, dass MotionGPT den aktuellen Stand der Technik in mehreren Bewegungsaufgaben erreicht, darunter textgesteuerte Bewegungsgenerierung, Bewegungsbeschreibung (motion captioning), Bewegungsvorhersage und Zwischenbewegungen (motion in-between).