HyperAIHyperAI

Command Palette

Search for a command to run...

EMAGE: Ein Ansatz zur einheitlichen und umfassenden Generierung von Co-Sprachgesten durch ausdrucksstarke maschierte Audiomodellierung von Gesten

Haiyang Liu Zihao Zhu Giorgio Becherini Yichen Peng Mingyang Su You Zhou Xuefei Zhe Naoya Iwamoto Bo Zheng Michael J. Black

Zusammenfassung

Wir schlagen EMAGE vor, ein Framework zur Generierung von vollen menschlichen Gesten aus Audio und maskierten Gesten, das Gesicht, lokale Körperpartien, Hände und globale Bewegungen umfasst. Um dies zu erreichen, stellen wir zunächst BEAT2 (BEAT-SMPLX-FLAME) vor, einen neuen mesh-basierten umfassenden Co-Speech-Datensatz. BEAT2 kombiniert einen MoShed SMPL-X-Körper mit FLAME-Kopfparametern und verfeinert die Modellierung von Kopf-, Hals- und Fingerbewegungen weiter, wodurch ein hochwertiger 3D-Bewegungserfassungsdatensatz im Community-Standard entsteht. EMAGE nutzt während des Trainings maskierte Körpergesten-Priors, um die Inferenzleistung zu verbessern. Es beinhaltet einen Maskierten Audio-Gesten-Transformer, der es ermöglicht, die Audio-zu-Geste-Generierung und die maskierte Gestenrekonstruktion gemeinsam zu trainieren, um Audiodaten und Körpervorschläge effektiv zu kodieren. Die kodierten Körpertipps aus den maskierten Gesten werden dann getrennt zur Generierung von Gesichts- und Körpersbewegungen eingesetzt. Darüber hinaus fügt EMAGE sprachliche Merkmale aus dem Rhythmus und Inhalt des Audios adaptiv zusammen und nutzt vier zusammengesetzte VQ-VAEs (Vector Quantized Variational Autoencoders), um die Treue und Vielfalt der Ergebnisse zu erhöhen. Experimente zeigen, dass EMAGE holistische Gesten mit Stand-of-the-Art-Leistung generiert und flexibel auf vorgegebene räumlich-zeitliche Gesteneingaben reagiert, indem es vollständige, audio-synchronisierte Ergebnisse erzeugt. Unser Code und unser Datensatz sind unter https://pantomatrix.github.io/EMAGE/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EMAGE: Ein Ansatz zur einheitlichen und umfassenden Generierung von Co-Sprachgesten durch ausdrucksstarke maschierte Audiomodellierung von Gesten | Paper | HyperAI