HyperAIHyperAI
il y a 2 mois

Apprentissage de gestes conversationnels 3D guidés par la parole à partir de vidéos

Habibie, Ikhsanul ; Xu, Weipeng ; Mehta, Dushyant ; Liu, Lingjie ; Seidel, Hans-Peter ; Pons-Moll, Gerard ; Elgharib, Mohamed ; Theobalt, Christian
Apprentissage de gestes conversationnels 3D guidés par la parole à partir de vidéos
Résumé

Nous proposons la première approche permettant de synthétiser automatiquement et conjointement les gestes corporels et des mains en 3D synchronisés, ainsi que les animations du visage et de la tête en 3D, d'un personnage virtuel à partir d'une entrée vocale. Notre algorithme utilise une architecture CNN qui exploite la corrélation inhérente entre l'expression faciale et les gestes des mains. La synthèse des gestes corporels conversationnels est un problème multi-modale, car de nombreux gestes similaires peuvent accompagner de manière plausible le même discours en entrée. Pour synthétiser des gestes corporels plausibles dans ce contexte, nous formons un modèle basé sur un réseau génératif adversarial (GAN) qui évalue la plausibilité des séquences de mouvements corporels 3D générées lorsqu'elles sont associées aux caractéristiques audio en entrée. Nous contribuons également à une nouvelle méthode pour créer un corpus volumineux comprenant plus de 33 heures de données annotées sur le corps, les mains et le visage extraites de vidéos spontanées de personnes parlant. À cette fin, nous appliquons des approches monoculaires d'avant-garde pour l'estimation de la posture du corps et des mains en 3D ainsi que pour la capture dense de performances faciales en 3D au corpus vidéo. De cette manière, nous pouvons former nos algorithmes sur plusieurs ordres de grandeur plus de données que les algorithmes précédents qui recourent à des solutions complexes de capture de mouvement en studio, permettant ainsi d'entraîner des algorithmes de synthèse plus expressifs. Nos expériences et notre étude utilisateur montrent la qualité d'état de l'art de nos animations complètes en 3D du personnage virtuel synthétisé à partir du discours.

Apprentissage de gestes conversationnels 3D guidés par la parole à partir de vidéos | Articles de recherche récents | HyperAI