HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle

Abstract

Zwei Hauptquellen für Trainingsdaten existieren für moderne Sprachmodelle nach der Initialtrainierung: Online-Daten (durch das Modell generierte Rollouts) und Offline-Daten (durch Menschen oder andere Modelle generierte Demonstrationen). Diese beiden Datentypen werden typischerweise von Ansätzen wie Reinforcement Learning (RL) und Supervised Fine-Tuning (SFT) jeweils verwendet. In diesem Artikel zeigen wir, dass diese Ansätze nicht widersprüchlich sind, sondern jeweils Spezialfälle eines einheitlichen Optimierungsprozesses darstellen. Wir leiten einen einheitlichen Policy-Gradient-Schätzer ab und stellen die Berechnungen einer breiten Palette von Nachtrainierungsansätzen als Gradient einer gemeinsamen Zielfunktion unter unterschiedlichen Annahmen hinsichtlich der Datenausgangsverteilung sowie verschiedener Bias-Varianz-Tradeoffs dar. Der Gradient-Schätzer besteht aus vier austauschbaren Komponenten: einer Stabilisierungs-Maske, einem Referenz-Policy-Nenner, einer Vorteilsabschätzung und einem Likelihood-Gradienten. Aufgrund unserer theoretischen Erkenntnisse schlagen wir Hybrid Post-Training (HPT) vor, einen Algorithmus, der dynamisch verschiedene Trainingssignale auswählt. HPT ist darauf ausgelegt, sowohl eine effektive Ausnutzung von Demonstrationen als auch eine stabile Exploration zu ermöglichen, ohne dabei die erlernten Schlussfolgerungsmuster zu beeinträchtigen. Wir präsentieren umfangreiche Experimente sowie Ablationsstudien, um die Wirksamkeit unseres einheitlichen theoretischen Rahmens und von HPT zu verifizieren. HPT übertrifft in sechs Benchmarks für mathematische Schlussfolgerung und zwei Out-of-Distribution-Suiten konsistent starke Baselines über Modelle unterschiedlicher Skalen und Architekturen hinweg.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu einer einheitlichen Sichtweise der Nachschulung großer Sprachmodelle | Forschungsarbeiten | HyperAI