vor 2 Monaten

Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Details der Forschungsarbeit anzeigen Code anzeigen

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang

Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Abstract

Zwei Hauptquellen für Trainingsdaten existieren für moderne Sprachmodelle nach der Initialtrainierung: Online-Daten (durch das Modell generierte Rollouts) und Offline-Daten (durch Menschen oder andere Modelle generierte Demonstrationen). Diese beiden Datentypen werden typischerweise von Ansätzen wie Reinforcement Learning (RL) und Supervised Fine-Tuning (SFT) jeweils verwendet. In diesem Artikel zeigen wir, dass diese Ansätze nicht widersprüchlich sind, sondern jeweils Spezialfälle eines einheitlichen Optimierungsprozesses darstellen. Wir leiten einen einheitlichen Policy-Gradient-Schätzer ab und stellen die Berechnungen einer breiten Palette von Nachtrainierungsansätzen als Gradient einer gemeinsamen Zielfunktion unter unterschiedlichen Annahmen hinsichtlich der Datenausgangsverteilung sowie verschiedener Bias-Varianz-Tradeoffs dar. Der Gradient-Schätzer besteht aus vier austauschbaren Komponenten: einer Stabilisierungs-Maske, einem Referenz-Policy-Nenner, einer Vorteilsabschätzung und einem Likelihood-Gradienten. Aufgrund unserer theoretischen Erkenntnisse schlagen wir Hybrid Post-Training (HPT) vor, einen Algorithmus, der dynamisch verschiedene Trainingssignale auswählt. HPT ist darauf ausgelegt, sowohl eine effektive Ausnutzung von Demonstrationen als auch eine stabile Exploration zu ermöglichen, ohne dabei die erlernten Schlussfolgerungsmuster zu beeinträchtigen. Wir präsentieren umfangreiche Experimente sowie Ablationsstudien, um die Wirksamkeit unseres einheitlichen theoretischen Rahmens und von HPT zu verifizieren. HPT übertrifft in sechs Benchmarks für mathematische Schlussfolgerung und zwei Out-of-Distribution-Suiten konsistent starke Baselines über Modelle unterschiedlicher Skalen und Architekturen hinweg.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang2 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Xingtai Lv Yuxin Zuo Youbang Sun Hongyi Liu Yuntian Wei Zhekai Chen Lixuan He Xuekai Zhu Kaiyan Zhang Bingning Wang