KLASS: KL-gesteuerte schnelle Inferenz in maskierten Diffusionsmodellen
Seo Hyun Kim Sunwoo Hong Hojung Jung Youngrok Park Se-Young Yun

Abstract
Maskierte Diffusionsmodelle haben auf verschiedenen Aufgaben, darunter Sprachgenerierung, konkurrenzfähige Ergebnisse erzielt. Aufgrund ihres iterativen Verbesserungsprozesses ist die Inferenz jedoch oft durch eine langsame und statische Sampling-Geschwindigkeit begrenzt. Um dieses Problem zu überwinden, stellen wir „KL-Adaptive Stability Sampling“ (KLASS) vor, eine schnelle und effektive Sampling-Methode, die die tokenbasierte KL-Divergenz nutzt, um stabile, hochzuverlässige Vorhersagen zu identifizieren. Durch das gleichzeitige Entmasken mehrerer Tokens in jeder Iteration – ohne zusätzlichen Modelltrainingsaufwand – beschleunigt unser Ansatz die Generierung erheblich, während die Qualität der Ergebnisse erhalten bleibt. Auf Reasoning-Benchmarks erreicht KLASS bis zu 2,78-fache Geschwindigkeitssteigerung in der realen Zeit (wall-clock time), wobei die Leistung gegenüber der herkömmlichen Greedy-Entscheidung verbessert wird und die derzeit besten Ergebnisse unter den Diffusions-basierten Samplern erzielt. Wir validieren KLASS zudem in verschiedenen Anwendungsbereichen, darunter Text-, Bild- und Molekülgenerierung, und zeigen so, dass es sich als allgemein anwendbarer Sampler für unterschiedliche Modelle eignet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.