HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von sprachgesteuerten 3D-Gesten aus Videos

Ikhsanul Habibie Weipeng Xu Dushyant Mehta Lingjie Liu Hans-Peter Seidel Gerard Pons-Moll Mohamed Elgharib Christian Theobalt

Zusammenfassung

Wir schlagen den ersten Ansatz vor, um sowohl die synchronen 3D-Gesprächsgesten des Körpers und der Hände als auch die 3D-Animationen des Gesichts und des Kopfes eines virtuellen Charakters automatisch und gemeinsam aus Spracheingaben zu synthetisieren. Unser Algorithmus verwendet eine CNN-Architektur (Convolutional Neural Network), die die inhärente Korrelation zwischen Gesichtsausdruck und Handgesten nutzt. Die Synthese von Gesprächskörpergesten ist ein multimodales Problem, da viele ähnliche Gesten plausibel mit derselben Eingabesprache verbunden sein können. Um in diesem Kontext plausible Körpergesten zu synthetisieren, trainieren wir ein auf einem Generativen Wettbewerbsnetzwerk (Generative Adversarial Network, GAN) basierendes Modell, das die Plausibilität der generierten Sequenzen der 3D-Körperbewegung misst, wenn sie mit den Eingabeaudiodaten kombiniert werden. Wir tragen auch einen neuen Ansatz bei zur Erstellung eines großen Korpus mit mehr als 33 Stunden annotierter Körper-, Hand- und Gesichtsdaten aus Videos von im Freien sprechenden Menschen. Dazu wenden wir moderne monokulare Methoden für die Schätzung von 3D-Körper- und Handpose sowie dichte 3D-Gesichtscapturing-Techniken auf den Videokorpus an. Auf diese Weise können wir uns auf um ein Vielfaches mehr Daten trainieren als frühere Algorithmen, die komplexe Bewegungsaufzeichnungslösungen im Studio verwenden, und dadurch expressivere Syntheseverfahren trainieren. Unsere Experimente und Nutzerstudien zeigen die Stand der Technik entsprechende Qualität unserer sprachsynthetisierten vollständigen 3D-Charakteranimationen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von sprachgesteuerten 3D-Gesten aus Videos | Paper | HyperAI