Génération de mouvements humains 3D holistiques à partir de la parole

Ce travail aborde le problème de la génération de mouvements corporels holistiques 3D à partir de la parole humaine. Étant donné un enregistrement vocal, nous synthétisons des séquences de poses corporelles 3D, de gestes de mains et d'expressions faciales qui sont réalistes et diversifiées. Pour y parvenir, nous construisons d'abord un jeu de données de haute qualité comprenant des maillages corporels holistiques 3D synchronisés avec la parole. Nous définissons ensuite un nouveau cadre de génération de parole en mouvement dans lequel le visage, le corps et les mains sont modélisés séparément. Cette modélisation séparée découle du fait que l'articulation faciale est fortement corrélée à la parole humaine, tandis que les poses corporelles et les gestes de mains sont moins corrélés. Plus précisément, nous utilisons un autoencodeur pour les mouvements faciaux, et un autoencodeur variationnel vectoriel quantifié compositionnel (VQ-VAE) pour les mouvements du corps et des mains. Le VQ-VAE compositionnel est essentiel pour générer des résultats diversifiés. De plus, nous proposons un modèle autorégressif conditionnel croisé qui génère des poses corporelles et des gestes de mains, conduisant à des mouvements cohérents et réalistes. Des expériences approfondies et des études utilisateurs montrent que notre approche proposée atteint des performances d'état de l'art tant qualitativement que quantitativement. Notre nouveau jeu de données et notre code seront mis à disposition à des fins de recherche sur https://talkshow.is.tue.mpg.de.