vor 2 Monaten

Lernen von sprachgesteuerten 3D-Gesten aus Videos

Habibie, Ikhsanul ; Xu, Weipeng ; Mehta, Dushyant ; Liu, Lingjie ; Seidel, Hans-Peter ; Pons-Moll, Gerard ; Elgharib, Mohamed ; Theobalt, Christian

Details der Forschungsarbeit anzeigen

Lernen von sprachgesteuerten 3D-Gesten aus Videos

Abstract

Wir schlagen den ersten Ansatz vor, um sowohl die synchronen 3D-Gesprächsgesten des Körpers und der Hände als auch die 3D-Animationen des Gesichts und des Kopfes eines virtuellen Charakters automatisch und gemeinsam aus Spracheingaben zu synthetisieren. Unser Algorithmus verwendet eine CNN-Architektur (Convolutional Neural Network), die die inhärente Korrelation zwischen Gesichtsausdruck und Handgesten nutzt. Die Synthese von Gesprächskörpergesten ist ein multimodales Problem, da viele ähnliche Gesten plausibel mit derselben Eingabesprache verbunden sein können. Um in diesem Kontext plausible Körpergesten zu synthetisieren, trainieren wir ein auf einem Generativen Wettbewerbsnetzwerk (Generative Adversarial Network, GAN) basierendes Modell, das die Plausibilität der generierten Sequenzen der 3D-Körperbewegung misst, wenn sie mit den Eingabeaudiodaten kombiniert werden. Wir tragen auch einen neuen Ansatz bei zur Erstellung eines großen Korpus mit mehr als 33 Stunden annotierter Körper-, Hand- und Gesichtsdaten aus Videos von im Freien sprechenden Menschen. Dazu wenden wir moderne monokulare Methoden für die Schätzung von 3D-Körper- und Handpose sowie dichte 3D-Gesichtscapturing-Techniken auf den Videokorpus an. Auf diese Weise können wir uns auf um ein Vielfaches mehr Daten trainieren als frühere Algorithmen, die komplexe Bewegungsaufzeichnungslösungen im Studio verwenden, und dadurch expressivere Syntheseverfahren trainieren. Unsere Experimente und Nutzerstudien zeigen die Stand der Technik entsprechende Qualität unserer sprachsynthetisierten vollständigen 3D-Charakteranimationen.