Audio2Gestures : Génération de gestes diversifiés à partir d'audio vocal avec des autoencodeurs variationnels conditionnels

La génération de gestes conversationnels à partir d’un audio vocal est un défi en raison de la correspondance intrinsèquement un-à-plusieurs entre l’audio et les mouvements corporels. Les CNNs et RNNs conventionnels supposent une correspondance un-à-un, ce qui les pousse à prédire la moyenne de tous les mouvements cibles possibles, entraînant des mouvements plats ou monotones lors de l’inférence. Pour surmonter ce problème, nous proposons un nouveau modèle d’auto-encodeur variationnel conditionnel (VAE) qui modélise explicitement la correspondance un-à-plusieurs audio-mouvement en divisant le code latente intermodale en deux composantes : un code partagé et un code spécifique au mouvement. Le code partagé capture principalement la forte corrélation entre l’audio et le mouvement (par exemple, la synchronisation entre les battements audio et les battements du mouvement), tandis que le code spécifique au mouvement capte des informations diversifiées indépendantes de l’audio. Toutefois, cette séparation du code latente pose des difficultés d’entraînement pour le modèle VAE. Pour y remédier, nous avons conçu un réseau de transformation permettant un échantillonnage aléatoire, ainsi que d’autres techniques incluant une perte de mouvement assouplie, une contrainte en bicyclette et une perte de diversité, afin d’améliorer l’entraînement du VAE. Des expériences menées sur des jeux de données 3D et 2D de mouvements confirment que notre méthode produit des mouvements plus réalistes et plus diversifiés que les méthodes de pointe, tant du point de vue quantitatif que qualitatif. Enfin, nous démontrons que notre approche peut être facilement utilisée pour générer des séquences de mouvements avec des clips de mouvement spécifiés par l’utilisateur sur une timeline. Le code source et des résultats supplémentaires sont disponibles à l’adresse suivante : https://jingli513.github.io/audio2gestures.