TM2T : Modélisation stochastique et tokenisée pour la génération réciproque des mouvements humains en 3D et des textes

Inspirationnée par les liens étroits entre la vision et le langage, deux modalités intimement liées à la perception et à la communication humaines, notre article vise à explorer la génération de mouvements corporels humains en 3D à partir de textes, ainsi que sa tâche réciproque, abrégées respectivement en text2motion et motion2text. Pour relever les défis existants, notamment pour permettre la génération de plusieurs mouvements distincts à partir du même texte et éviter la production indésirable de séquences de poses statiques, nous proposons l'utilisation d'un jeton de mouvement (motion token), une représentation discrète et compacte du mouvement. Cela offre un terrain d'égalité au niveau des signaux de mouvement et de texte, respectivement représentés par des jetons de mouvement et des jetons de texte. De plus, notre module motion2text est intégré dans le processus d'alignement inverse de notre pipeline d'entraînement text2motion, où une déviation importante entre le texte synthétisé et le texte d'entrée entraîne une perte d'entraînement importante ; expérimentalement, cela s'est avéré améliorer efficacement les performances. Enfin, les correspondances entre les deux modalités de mouvements et de textes sont facilitées par l'adaptation du modèle neuronal pour la traduction automatique (NMT) à notre contexte. Ce modèle autorégressif de la distribution sur des jetons de mouvement discrets permet également une production non déterministe de séquences de poses, dont la longueur peut varier, à partir d'un texte d'entrée. Notre approche est flexible et peut être utilisée pour les tâches text2motion et motion2text. Les évaluations empiriques sur deux jeux de données基准数据集 ont démontré la supériorité de notre approche sur ces deux tâches par rapport à diverses méthodes state-of-the-art. Page du projet : https://ericguo5513.github.io/TM2T/Note: "基准数据集" is not translated into French as it appears to be a Chinese term that was not intended to be part of the English text. If you meant to include it in the French translation or if there's a specific dataset name that should be used instead, please let me know!