vor einem Monat

Variationales Schließen für Sprachmodelle

Details der Forschungsarbeit anzeigen Code anzeigen

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Variationales Schließen für Sprachmodelle

Abstract

Wir stellen einen variationalen Schlussfolgerungsrahmen für Sprachmodelle vor, bei dem Denkspuren als latente Variablen betrachtet und mittels variationaler Inferenz optimiert werden. Ausgehend von der unteren Schranke der Beobachtungswahrscheinlichkeit (Evidence Lower Bound, ELBO) erweitern wir diese zu einem Mehr-Spur-Objektiv, das engere Schranken ermöglicht, und schlagen eine Forward-KL-Formulierung vor, die die Stabilität der Schätzung der variationalen Posterior während des Trainings verbessert. Wir zeigen weiterhin, dass Verwerfungssampling-Finetuning und binäre Belohnungs-RL, einschließlich GRPO, als lokale Forward-KL-Objektive interpretiert werden können, wobei sich aus der Herleitung eine implizite Gewichtung nach Modellgenauigkeit ergibt und eine bisher nicht erkannte Bias-Richtung hin zu einfacheren Fragen offenbart. Wir validieren unsere Methode empirisch an den Modellfamilien Qwen 2.5 und Qwen 3 über eine breite Palette von Schlussfolgerungsaufgaben. Insgesamt liefert unsere Arbeit eine konsistente probabilistische Perspektive, die die variationale Inferenz mit RL-artigen Methoden vereint und stabile Optimierungsziele für die Verbesserung der Schlussfolgerungsfähigkeit von Sprachmodellen bietet. Der Quellcode ist unter https://github.com/sail-sg/variational-reasoning verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Variationales Schließen für Sprachmodelle

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Abstract

KI mit KI entwickeln

Hyper Newsletters