HyperAIHyperAI

Command Palette

Search for a command to run...

Die Diffusionsdualität

Zusammenfassung

Uniform-state diskrete Diffusionsmodelle versprechen aufgrund ihrer inhärenten Fähigkeit zur Selbstkorrektur eine schnelle Textgenerierung. Sie werden jedoch in der Regel von autoregressiven Modellen und maskierten Diffusionsmodellen übertroffen. In dieser Arbeit schließen wir diese Leistungsunterschiede durch die Nutzung eines entscheidenden Erkenntnisses: Uniform-state Diffusionsprozesse entstehen natürlicherweise aus einem zugrundeliegenden Gaußschen Diffusionsprozess. Unsere Methode, Duo, überträgt leistungsfähige Techniken vom Gaußschen Diffusion, um sowohl das Training als auch das Sampling zu verbessern. Zunächst führen wir eine curriculumbasierte Lernstrategie ein, die durch den Gaußschen Prozess geleitet wird, wodurch sich die Trainingsgeschwindigkeit durch Varianzreduktion verdoppelt. Modelle, die mit curriculumbasierem Lernen trainiert wurden, übertreffen autoregressive Modelle in sieben Benchmarks bei drei in Bezug auf zero-shot Perplexität. Zweitens präsentieren wir Discrete Consistency Distillation (diskrete Konsistenzdestillation), die Konsistenzdestillation vom kontinuierlichen in den diskreten Kontext anpasst. Dieser Algorithmus ermöglicht eine Generierung in wenigen Schritten in Diffusions-Sprachmodellen, indem er das Sampling um zwei Größenordnungen beschleunigt. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite bereit: http://s-sahoo.github.io/duo


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp