La Dualité de la Diffusion

Sahoo, Subham Sekhar ; Deschenaux, Justin ; Gokaslan, Aaron ; Wang, Guanghan ; Chiu, Justin ; Kuleshov, Volodymyr

Date de publication: 6/16/2025

Résumé

Les modèles de diffusion discrète à état uniforme offrent la promesse d'une génération de texte rapide grâce à leur capacité inhérente à s'auto-corriger. Cependant, ils sont généralement surpassés par les modèles auto-régressifs et les modèles de diffusion masquée. Dans cette étude, nous réduisons cet écart de performance en exploitant une intuition clé : les processus de diffusion à état uniforme émergent naturellement d'une diffusion gaussienne sous-jacente. Notre méthode, Duo, transfère des techniques puissantes de la diffusion gaussienne pour améliorer à la fois l'entraînement et l'échantillonnage. Premièrement, nous introduisons une stratégie d'apprentissage par programme progressif guidée par le processus gaussien, qui double la vitesse d'entraînement en réduisant la variance. Les modèles entraînés avec cette stratégie d'apprentissage par programme progressif dépassent les modèles auto-régressifs en termes de perplexité zéro-shot sur 3 des 7基准 (benchmarks). Deuxièmement, nous présentons la distillation de cohérence discrète, qui adapte la distillation de cohérence du cadre continu au cadre discret. Cet algorithme permet une génération en quelques étapes dans les modèles de langage de diffusion en accélérant l'échantillonnage de deux ordres de grandeur. Nous mettons à disposition le code et les points de contrôle du modèle sur la page du projet : http://s-sahoo.github.io/duoNote: "基准" is translated as "benchmarks" in parentheses to ensure clarity for French readers who may not be familiar with the term.

Voir les détails de l'article