HyperAI

Die Diffusionsdualität

Sahoo, Subham Sekhar ; Deschenaux, Justin ; Gokaslan, Aaron ; Wang, Guanghan ; Chiu, Justin ; Kuleshov, Volodymyr
Veröffentlichungsdatum: 6/16/2025
Die Diffusionsdualität
Abstract

Uniform-state diskrete Diffusionsmodelle versprechen aufgrund ihrer inhärenten Fähigkeit zur Selbstkorrektur eine schnelle Textgenerierung. Sie werden jedoch in der Regel von autoregressiven Modellen und maskierten Diffusionsmodellen übertroffen. In dieser Arbeit schließen wir diese Leistungsunterschiede durch die Nutzung eines entscheidenden Erkenntnisses: Uniform-state Diffusionsprozesse entstehen natürlicherweise aus einem zugrundeliegenden Gaußschen Diffusionsprozess. Unsere Methode, Duo, überträgt leistungsfähige Techniken vom Gaußschen Diffusion, um sowohl das Training als auch das Sampling zu verbessern. Zunächst führen wir eine curriculumbasierte Lernstrategie ein, die durch den Gaußschen Prozess geleitet wird, wodurch sich die Trainingsgeschwindigkeit durch Varianzreduktion verdoppelt. Modelle, die mit curriculumbasierem Lernen trainiert wurden, übertreffen autoregressive Modelle in sieben Benchmarks bei drei in Bezug auf zero-shot Perplexität. Zweitens präsentieren wir Discrete Consistency Distillation (diskrete Konsistenzdestillation), die Konsistenzdestillation vom kontinuierlichen in den diskreten Kontext anpasst. Dieser Algorithmus ermöglicht eine Generierung in wenigen Schritten in Diffusions-Sprachmodellen, indem er das Sampling um zwei Größenordnungen beschleunigt. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite bereit: http://s-sahoo.github.io/duo