Command Palette
Search for a command to run...
Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Abstract
Zwei Hauptquellen für Trainingsdaten existieren für moderne Sprachmodelle nach der Initialtrainierung: Online-Daten (durch das Modell generierte Rollouts) und Offline-Daten (durch Menschen oder andere Modelle generierte Demonstrationen). Diese beiden Datentypen werden typischerweise von Ansätzen wie Reinforcement Learning (RL) und Supervised Fine-Tuning (SFT) jeweils verwendet. In diesem Artikel zeigen wir, dass diese Ansätze nicht widersprüchlich sind, sondern jeweils Spezialfälle eines einheitlichen Optimierungsprozesses darstellen. Wir leiten einen einheitlichen Policy-Gradient-Schätzer ab und stellen die Berechnungen einer breiten Palette von Nachtrainierungsansätzen als Gradient einer gemeinsamen Zielfunktion unter unterschiedlichen Annahmen hinsichtlich der Datenausgangsverteilung sowie verschiedener Bias-Varianz-Tradeoffs dar. Der Gradient-Schätzer besteht aus vier austauschbaren Komponenten: einer Stabilisierungs-Maske, einem Referenz-Policy-Nenner, einer Vorteilsabschätzung und einem Likelihood-Gradienten. Aufgrund unserer theoretischen Erkenntnisse schlagen wir Hybrid Post-Training (HPT) vor, einen Algorithmus, der dynamisch verschiedene Trainingssignale auswählt. HPT ist darauf ausgelegt, sowohl eine effektive Ausnutzung von Demonstrationen als auch eine stabile Exploration zu ermöglichen, ohne dabei die erlernten Schlussfolgerungsmuster zu beeinträchtigen. Wir präsentieren umfangreiche Experimente sowie Ablationsstudien, um die Wirksamkeit unseres einheitlichen theoretischen Rahmens und von HPT zu verifizieren. HPT übertrifft in sechs Benchmarks für mathematische Schlussfolgerung und zwei Out-of-Distribution-Suiten konsistent starke Baselines über Modelle unterschiedlicher Skalen und Architekturen hinweg.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.