BAD : Diffusion Auto-régressive Bidirectionnelle pour la Génération de Texte vers Mouvement

Les modèles autorégressifs excellent dans la modélisation des dépendances séquentielles en imposant des contraintes causales, mais ils peinent à capturer des motifs bidirectionnels complexes en raison de leur nature unidirectionnelle. En revanche, les modèles basés sur le masquage exploitent un contexte bidirectionnel, permettant une modélisation plus riche des dépendances. Cependant, ils supposent souvent l'indépendance des tokens lors de la prédiction, ce qui affaiblit la modélisation des dépendances séquentielles. De plus, la corruption des séquences par le masquage ou l'absorption peut introduire des distorsions artificielles, compliquant le processus d'apprentissage. Pour remédier à ces problèmes, nous proposons Bidirectional Autoregressive Diffusion (BAD), une nouvelle approche qui combine les forces des modèles autorégressifs et basés sur le masquage. BAD utilise une technique de corruption basée sur la permutation qui préserve la structure naturelle de la séquence tout en imposant des dépendances causales grâce à un ordonnancement aléatoire, permettant ainsi une capture efficace à la fois des relations séquentielles et bidirectionnelles. Des expériences exhaustives montrent que BAD surpasse les modèles autorégressifs et basés sur le masquage dans la génération texte-mouvement, suggérant une nouvelle stratégie d'apprentissage préalable pour la modélisation de séquences. Le code source de BAD est disponible sur https://github.com/RohollahHS/BAD.