HyperAIHyperAI
il y a 17 jours

AQ-GT : un GRU-Transformer aligné temporellement et quantifié pour la synthèse de gestes co-speech

Hendric Voß, Stefan Kopp
AQ-GT : un GRU-Transformer aligné temporellement et quantifié pour la synthèse de gestes co-speech
Résumé

La génération de gestes co-speech réalistes et pertinents du point de vue du contexte constitue une tâche à la fois complexe et de plus en plus importante dans la conception d’agents artificiels multimodaux. Les méthodes précédentes se sont concentrées sur l’apprentissage d’une correspondance directe entre les représentations de gestes co-speech et les mouvements générés, ce qui a conduit à des gestes apparemment naturels mais souvent peu crédibles lors d’évaluations par des humains. Nous proposons une approche basée sur un réseau antagoniste génératif (GAN) doté d’un pipeline de quantification, permettant de pré-entraîner des séquences partielles de gestes. Les vecteurs du codebook résultants servent à la fois d’entrée et de sortie dans notre cadre, formant la base de la génération et de la reconstruction des gestes. En apprenant la correspondance d’une représentation d’espace latent au lieu de mapper directement vers une représentation vectorielle, ce cadre facilite la génération de gestes hautement réalistes et expressifs, qui reproduisent fidèlement les mouvements et comportements humains, tout en évitant efficacement les artefacts lors de la génération. Nous évaluons notre méthode en la comparant à des approches établies de génération de gestes co-speech ainsi qu’à des jeux de données existants de comportements humains. Nous menons également une étude d’ablation pour valider nos résultats. Les expérimentations montrent que notre approche dépasse clairement l’état de l’art actuel et est partiellement indiscernable des gestes humains. Nous mettons à disposition publiquement notre pipeline de données ainsi que le cadre de génération.