Permettre un contrôle synergique du corps entier dans la génération de mouvements co-verbaux basée sur des prompts

Les approches actuelles de génération de mouvements accompagnant la parole se concentrent généralement sur les gestes du haut du corps qui suivent le contenu de la parole, tout en manquant de soutenir un contrôle élaboré des mouvements corporels synergiques basés sur des instructions textuelles, comme parler en marchant. Les principaux défis résident dans : 1) les jeux de données existants de parole à mouvement ne comprennent que des mouvements corporels très limités, ce qui exclut une large gamme d'activités humaines courantes de la distribution d'entraînement ; 2) ces jeux de données manquent également d'instructions utilisateur annotées. Pour relever ces défis, nous proposons SynTalker, qui utilise un jeu de données textuel à mouvement prêt à l'emploi comme complément pour combler les lacunes en matière de mouvements corporels complets et d'instructions. Les contributions techniques principales sont doubles. D'une part, il s'agit du processus d'entraînement en plusieurs étapes qui permet d'obtenir un espace d'embedding aligné entre les mouvements, la parole et les instructions malgré une importante discordance distributionnelle des mouvements entre les jeux de données de parole à mouvement et textuel à mouvement. D'autre part, il s'agit du processus d'inférence conditionnelle basé sur la diffusion, qui utilise une stratégie séparée puis combinée pour réaliser un contrôle précis des parties locales du corps. De nombreuses expériences ont été menées pour vérifier que notre approche supporte un contrôle précis et flexible de la génération de mouvements corporels synergiques basée à la fois sur la parole et les instructions utilisateur, ce qui dépasse les capacités des approches existantes.