HyperAIHyperAI

Command Palette

Search for a command to run...

Audio2Gestures : Génération de gestes diversifiés à partir d'audio vocal avec des autoencodeurs variationnels conditionnels

Jing Li Di Kang Wenjie Pei Xuefei Zhe Ying Zhang Zhenyu He Linchao Bao

Résumé

La génération de gestes conversationnels à partir d’un audio vocal est un défi en raison de la correspondance intrinsèquement un-à-plusieurs entre l’audio et les mouvements corporels. Les CNNs et RNNs conventionnels supposent une correspondance un-à-un, ce qui les pousse à prédire la moyenne de tous les mouvements cibles possibles, entraînant des mouvements plats ou monotones lors de l’inférence. Pour surmonter ce problème, nous proposons un nouveau modèle d’auto-encodeur variationnel conditionnel (VAE) qui modélise explicitement la correspondance un-à-plusieurs audio-mouvement en divisant le code latente intermodale en deux composantes : un code partagé et un code spécifique au mouvement. Le code partagé capture principalement la forte corrélation entre l’audio et le mouvement (par exemple, la synchronisation entre les battements audio et les battements du mouvement), tandis que le code spécifique au mouvement capte des informations diversifiées indépendantes de l’audio. Toutefois, cette séparation du code latente pose des difficultés d’entraînement pour le modèle VAE. Pour y remédier, nous avons conçu un réseau de transformation permettant un échantillonnage aléatoire, ainsi que d’autres techniques incluant une perte de mouvement assouplie, une contrainte en bicyclette et une perte de diversité, afin d’améliorer l’entraînement du VAE. Des expériences menées sur des jeux de données 3D et 2D de mouvements confirment que notre méthode produit des mouvements plus réalistes et plus diversifiés que les méthodes de pointe, tant du point de vue quantitatif que qualitatif. Enfin, nous démontrons que notre approche peut être facilement utilisée pour générer des séquences de mouvements avec des clips de mouvement spécifiés par l’utilisateur sur une timeline. Le code source et des résultats supplémentaires sont disponibles à l’adresse suivante : https://jingli513.github.io/audio2gestures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp