HyperAIHyperAI

Command Palette

Search for a command to run...

Variationales Schließen für Sprachmodelle

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Zusammenfassung

Wir stellen einen variationalen Schlussfolgerungsrahmen für Sprachmodelle vor, bei dem Denkspuren als latente Variablen betrachtet und mittels variationaler Inferenz optimiert werden. Ausgehend von der unteren Schranke der Beobachtungswahrscheinlichkeit (Evidence Lower Bound, ELBO) erweitern wir diese zu einem Mehr-Spur-Objektiv, das engere Schranken ermöglicht, und schlagen eine Forward-KL-Formulierung vor, die die Stabilität der Schätzung der variationalen Posterior während des Trainings verbessert. Wir zeigen weiterhin, dass Verwerfungssampling-Finetuning und binäre Belohnungs-RL, einschließlich GRPO, als lokale Forward-KL-Objektive interpretiert werden können, wobei sich aus der Herleitung eine implizite Gewichtung nach Modellgenauigkeit ergibt und eine bisher nicht erkannte Bias-Richtung hin zu einfacheren Fragen offenbart. Wir validieren unsere Methode empirisch an den Modellfamilien Qwen 2.5 und Qwen 3 über eine breite Palette von Schlussfolgerungsaufgaben. Insgesamt liefert unsere Arbeit eine konsistente probabilistische Perspektive, die die variationale Inferenz mit RL-artigen Methoden vereint und stabile Optimierungsziele für die Verbesserung der Schlussfolgerungsfähigkeit von Sprachmodellen bietet. Der Quellcode ist unter https://github.com/sail-sg/variational-reasoning verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Variationales Schließen für Sprachmodelle | Paper | HyperAI