HyperAIHyperAI
vor 16 Tagen

HumanTOMATO: textbasierte Generierung ganzer Körperbewegungen

Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung-Yeung Shum
HumanTOMATO: textbasierte Generierung ganzer Körperbewegungen
Abstract

Diese Arbeit zielt auf eine neuartige, textgesteuerte Generierung ganzer Körperbewegungen ab, bei der eine gegebene textuelle Beschreibung als Eingabe dient und gleichzeitig hochwertige, vielfältige und kohärente Gesichtsausdrücke, Handgesten sowie Körperbewegungen generiert werden sollen. Bisherige Ansätze zur textgesteuerten Bewegungsgenerierung weisen zwei Hauptbegrenzungen auf: Sie vernachlässigen die entscheidende Rolle feinabgestimmter Steuerung von Gesicht und Händen für die lebendige Generierung ganzer Körperbewegungen und fehlt eine ausreichende Ausrichtung zwischen Text und Bewegung. Um diese Einschränkungen zu überwinden, schlagen wir einen textalignierten Rahmen zur Generierung ganzer Körperbewegungen vor, den wir HumanTOMATO nennen. Dies ist, soweit uns bekannt, der erste Versuch in diesem Forschungsfeld, eine praktikable, ganzheitliche Bewegungsgenerierung zu realisieren. Zur Bewältigung dieser anspruchsvollen Aufgabe umfasst unsere Lösung zwei zentrale Entwürfe: (1) einen hierarchischen, ganzheitlichen VQ-VAE (kurz H$^2$VQ) sowie einen Hierarchical-GPT zur feinabgestimmten Rekonstruktion und Generierung von Körper- und Handbewegungen unter Verwendung zweier strukturierter Codebücher; und (2) ein vortrainiertes Text-Bewegungs-Alignment-Modell, das die generierten Bewegungen explizit an die Eingabebeschreibung anpasst. Umfassende Experimente bestätigen, dass unser Modell erhebliche Vorteile sowohl hinsichtlich der Qualität der generierten Bewegungen als auch hinsichtlich der Text-Bewegungs-Alignment aufweist.

HumanTOMATO: textbasierte Generierung ganzer Körperbewegungen | Neueste Forschungsarbeiten | HyperAI