Command Palette
Search for a command to run...
Latente Verbesserungsdekodierung: Verbesserung diffusionbasierter Sprachmodelle durch die Verfeinerung von Glaubenszuständen
Qinglin Zhu Yizhen Yao Runcong Zhao Yanzheng Xiang Amrutha Saseendran Chen Jin Philip Alexander Teare Bin Liang Yulan He Lin Gui

Abstract
Autoregressive (AR) Model bleiben weiterhin die Standardmethode für die Generierung natürlicher Sprache, leiden jedoch weiterhin unter hoher Latenz aufgrund der strikt sequenziellen Dekodierung. Neuere, auf Diffusionsansätzen basierende Verfahren wie LlaDA und Dream verringern diese Latenz durch parallele Generierung, weisen jedoch zwei zentrale Einschränkungen auf: Informationsverlust, da bei jedem Schritt die vorhergesagten Verteilungen für noch nicht finalisierte Tokens verworfen werden, und vorzeitige Verpflichtung, bei der lokale Entscheidungen getroffen werden, ohne ausreichende globale Koordination. Wir stellen Latent Refinement Decoding (LRD) vor, einen zweistufigen Ansatz mit Latent Refinement und einem prädiktiven Rückkopplungsloop. Im ersten Stadium werden maskierte Positionen als Verteilungsmischungen aus vorhergesagten Tokens und der Masken-Einbettung beibehalten, wodurch das Modell konsistenter globale Überzeugungen aufbauen kann. Im zweiten Stadium werden vertrauenswürdige Tokens schrittweise finalisiert, während unsichere Tokens zur iterativen Rückkopplung beibehalten werden. Die Dynamik der Kullback-Leibler-Divergenz liefert ein begründetes und zuverlässiges Kriterium für Konvergenz und frühes Stoppen. Experimente an Codegenerierung (HumanEval +6,3, MBPP +2,6) und Schlussfolgerung (GSM8K +2,9, MATH500 +3,8) zeigen, dass LRD die Genauigkeit verbessert und gleichzeitig Geschwindigkeitssteigerungen von bis zu 10,6× ermöglicht, wodurch es eine starke und vielseitige Alternative für parallele Sequenzgenerierung darstellt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.