Les LLMs à diffusion peuvent effectuer une inférence plus rapide que l'AR grâce à la contrainte de diffusion discrète

Les modèles linguistiques à grande échelle à diffusion (dLLMs) sont apparus comme une alternative prometteuse aux modèles linguistiques à grande échelle autoregressifs (AR) pour la génération de texte, offrant la possibilité de décoder plusieurs jetons en une seule itération. Toutefois, aucun des dLLMs open-source existants n’a réussi à surpasser en vitesse d’inférence les modèles AR de taille comparable. Ce papier franchit cette barrière grâce à une stratégie simple et efficace, nommée discrete diffusion forcing (D2F). Le D2F confère aux dLLMs deux capacités clés : (1) une génération autoregressive par blocs, permettant d’utiliser efficacement le cache KV ; (2) la prédiction des jetons suivants sans attendre la complétion des blocs précédents, ce qui rend possible le décodage parallèle entre blocs. Ainsi, les dLLMs classiques sont transformés en un paradigme hybride AR-diffusion, propice à une inférence efficace. Le D2F peut être mis en œuvre via un processus de distillation asymétrique fondé sur des dLLMs préentraînés. Nous proposons également un algorithme de décodage parallèle en pipeline, permettant un compromis entre efficacité et efficacité. Expérimentalement, les dLLMs basés sur D2F atteignent une vitesse d’inférence supérieure à 2,5 fois celle de LLaMA3 et Qwen2.5 sur le corpus GSM8K. Par rapport aux dLLMs classiques tels que LLaDA et Dream, l’accélération dépasse 50 fois tout en maintenant une qualité de sortie comparable. Le code source est disponible à l’adresse suivante : https://github.com/zhijie-group/Discrete-Diffusion-Forcing.