Zeit ist eine Eigenschaft: Ausnutzung zeitlicher Dynamik in Diffusions-Sprachmodellen

Die Diffusion- große Sprachmodelle (dLLMs) erzeugen Text durch iterative Entrauschung, wobei aktuelle Dekodierstrategien jedoch reichhaltige Zwischenprädiktionen ignorieren, um sich auf das endgültige Ergebnis zu konzentrieren. In dieser Arbeit identifizieren wir ein kritisches Phänomen, das zeitliche Oszillation, bei dem korrekte Antworten häufig bereits in frühen Verarbeitungsschritten auftreten, aber in späteren Entrauschungsschritten überschrieben werden. Um dieses Problem anzugehen, stellen wir zwei ergänzende Methoden vor, die auf zeitlicher Konsistenz basieren: 1) Temporale Selbstkonsistenz-Abstimmung (Temporal Self-Consistency Voting), eine trainingsfreie, testzeitbasierte Dekodierstrategie, die Prädiktionen über verschiedene Entrauschungsschritte hinweg aggregiert, um die konsistenteste Ausgabe auszuwählen; und 2) eine Nachtrainingsmethode namens Temporale Konsistenzverstärkung (Temporal Consistency Reinforcement), die die temporale semantische Entropie (Temporal Semantic Entropy, TSE) – ein Maß für die semantische Stabilität über Zwischenprädiktionen hinweg – als Belohnungssignal nutzt, um stabile Generierungen zu fördern. Empirische Ergebnisse auf mehreren Benchmarks belegen die Wirksamkeit unseres Ansatzes. Allein mit der negativen TSE-Belohnung erreichen wir eine bemerkenswerte durchschnittliche Verbesserung um 24,7 % auf dem Countdown-Datensatz im Vergleich zu einem bestehenden dLLM. In Kombination mit der Genauigkeitsbelohnung erzielen wir absolute Verbesserungen von 2,0 % auf GSM8K, 4,3 % auf MATH500, 6,6 % auf SVAMP und 25,3 % auf Countdown. Unsere Ergebnisse unterstreichen das bisher ungenutzte Potenzial zeitlicher Dynamiken in dLLMs und bieten zwei einfache, jedoch effektive Werkzeuge, um dieses Potenzial zu erschließen.