HumanTOMATO : Génération de mouvements corporels entiers alignés sur le texte

Ce travail s'attaque à une nouvelle tâche de génération de mouvements corporels entiers pilotée par le texte, qui prend une description textuelle donnée en entrée et vise à générer simultanément des expressions faciales de haute qualité, des gestes des mains et des mouvements corporels cohérents et diversifiés. Les travaux antérieurs sur la génération de mouvements pilotée par le texte présentent principalement deux limites : ils négligent le rôle essentiel du contrôle fin des mains et du visage dans la génération de mouvements corporels vivants, et manquent d'une bonne alignement entre le texte et le mouvement. Pour surmonter ces limites, nous proposons un cadre de génération de mouvements corporels entiers alignés sur le texte, nommé HumanTOMATO, qui constitue, à notre connaissance, la première tentative vers une génération holistique applicable dans ce domaine de recherche. Pour relever ce défi, notre solution repose sur deux éléments clés : (1) un VQ-VAE hiérarchique holistique (appelé H$^2$VQ) et un GPT hiérarchique pour la reconstruction et la génération de mouvements corporels et manuels à très haute précision, utilisant deux codebooks structurés ; et (2) un modèle pré-entraîné d’alignement texte-mouvement afin d’assurer une correspondance explicite entre le mouvement généré et la description textuelle d’entrée. Des expériences approfondies démontrent que notre modèle présente des avantages significatifs tant en termes de qualité des mouvements générés que de leur alignement avec le texte.