HyperAIHyperAI
vor 2 Monaten

EMAGE: Ein Ansatz zur einheitlichen und umfassenden Generierung von Co-Sprachgesten durch ausdrucksstarke maschierte Audiomodellierung von Gesten

Liu, Haiyang ; Zhu, Zihao ; Becherini, Giorgio ; Peng, Yichen ; Su, Mingyang ; Zhou, You ; Zhe, Xuefei ; Iwamoto, Naoya ; Zheng, Bo ; Black, Michael J.
EMAGE: Ein Ansatz zur einheitlichen und umfassenden Generierung von Co-Sprachgesten durch
  ausdrucksstarke maschierte Audiomodellierung von Gesten
Abstract

Wir schlagen EMAGE vor, ein Framework zur Generierung von vollen menschlichen Gesten aus Audio und maskierten Gesten, das Gesicht, lokale Körperpartien, Hände und globale Bewegungen umfasst. Um dies zu erreichen, stellen wir zunächst BEAT2 (BEAT-SMPLX-FLAME) vor, einen neuen mesh-basierten umfassenden Co-Speech-Datensatz. BEAT2 kombiniert einen MoShed SMPL-X-Körper mit FLAME-Kopfparametern und verfeinert die Modellierung von Kopf-, Hals- und Fingerbewegungen weiter, wodurch ein hochwertiger 3D-Bewegungserfassungsdatensatz im Community-Standard entsteht. EMAGE nutzt während des Trainings maskierte Körpergesten-Priors, um die Inferenzleistung zu verbessern. Es beinhaltet einen Maskierten Audio-Gesten-Transformer, der es ermöglicht, die Audio-zu-Geste-Generierung und die maskierte Gestenrekonstruktion gemeinsam zu trainieren, um Audiodaten und Körpervorschläge effektiv zu kodieren. Die kodierten Körpertipps aus den maskierten Gesten werden dann getrennt zur Generierung von Gesichts- und Körpersbewegungen eingesetzt. Darüber hinaus fügt EMAGE sprachliche Merkmale aus dem Rhythmus und Inhalt des Audios adaptiv zusammen und nutzt vier zusammengesetzte VQ-VAEs (Vector Quantized Variational Autoencoders), um die Treue und Vielfalt der Ergebnisse zu erhöhen. Experimente zeigen, dass EMAGE holistische Gesten mit Stand-of-the-Art-Leistung generiert und flexibel auf vorgegebene räumlich-zeitliche Gesteneingaben reagiert, indem es vollständige, audio-synchronisierte Ergebnisse erzeugt. Unser Code und unser Datensatz sind unter https://pantomatrix.github.io/EMAGE/ verfügbar.