Fast-dLLM : Accélération sans entraînement des modèles de langage par diffusion en activant le cache KV et la décodification parallèle

Les modèles de langage à grande échelle basés sur la diffusion (Diffusion LLMs) ont montré un potentiel prometteur pour la génération de texte non auto-régressive avec des capacités de décodage parallèle. Cependant, la vitesse d'inférence pratique des Diffusion LLMs open source est souvent inférieure à celle des modèles auto-régressifs en raison de l'absence de cache clé-valeur (KV Cache) et de la dégradation de la qualité lors du décodage simultané de plusieurs jetons. Pour combler cet écart, nous introduisons un nouveau mécanisme de cache clé-valeur approximatif par blocs adapté aux modèles de diffusion bidirectionnels, permettant une réutilisation du cache avec une baisse négligeable des performances. De plus, nous identifions la cause principale de la dégradation de la qualité de génération lors du décodage parallèle comme étant le désordre des dépendances entre les jetons sous l'hypothèse d'indépendance conditionnelle. Pour résoudre ce problème, nous proposons une stratégie de décodage parallèle basée sur la confiance qui sélectionne les jetons dont le seuil de confiance est dépassé, atténuant ainsi les violations de dépendance et maintenant la qualité de génération. Les résultats expérimentaux sur les modèles LLaDA et Dream, évalués sur plusieurs benchmarks de modèles de langage à grande échelle (LLM), montrent une amélioration allant jusqu'à \textbf{27,6 fois} du débit avec une perte minimale d'exactitude, réduisant ainsi l'écart de performance avec les modèles auto-régressifs et ouvrant la voie à un déploiement pratique des Diffusion LLMs.