UDE : Un moteur de conduite unifié pour la génération de mouvements humains

La génération de séquences de mouvement humain contrôlables et éditables constitue un défi majeur dans le domaine de la génération d’avatars 3D. Pendant longtemps, la création et l’animation du mouvement humain ont été des tâches très manuelles, jusqu’à l’émergence récente des approches fondées sur l’apprentissage automatique. Toutefois, ces méthodes restent encore spécifiques à une tâche ou à un type de modalité donnée \cite{ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}. Dans cet article, nous proposons « UDE », le premier moteur piloté unifié permettant de générer des séquences de mouvement humain à partir de textes naturels ou de séquences audio (voir la figure~\ref{fig:teaser}). En détail, UDE se compose des composants clés suivants : 1) un module de quantification du mouvement basé sur VQVAE, qui représente les séquences de mouvement continues sous forme de codes latents discrets \cite{van2017neural} ; 2) un encodeur transformer indépendant de la modalité \cite{vaswani2017attention}, capable d’apprendre à mapper des signaux pilotés par modalité vers un espace commun ; 3) un réseau transformer unifié (de type GPT \cite{radford2019language}) pour prédire de manière auto-régressive les indices des codes latents quantifiés ; 4) un décodeur de mouvement par diffusion, qui prend en entrée les tokens de mouvement et les transforme en séquences de mouvement avec une grande diversité. Nous évaluons notre méthode sur les benchmarks HumanML3D \cite{Guo_2022_CVPR} et AIST++ \cite{li2021learn}, et les résultats expérimentaux démontrent que notre approche atteint des performances de pointe. Site du projet : \url{https://github.com/zixiangzhou916/UDE/}