HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Verstärkendes Lernen auf vortrainierten Daten

Verstärkendes Lernen auf vortrainierten Daten

Abstract

Die wachsende Diskrepanz zwischen der exponentiellen Skalierung der rechnerischen Ressourcen und dem begrenzten Wachstum qualitativ hochwertiger Textdaten stellt heute eine wesentliche Einschränkung für herkömmliche Skalierungsansätze großer Sprachmodelle (Large Language Models, LLMs) dar. Um dieser Herausforderung zu begegnen, stellen wir RLPT (Reinforcement Learning on Pre-Training data) vor – ein neues Paradigma zur Skalierung während des Trainings zur Optimierung von LLMs. Im Gegensatz zu früheren Ansätzen, die die Skalierung des Trainings hauptsächlich über überwachtes Lernen erreichen, ermöglicht RLPT es dem Policy-Modell, autonom sinnvolle Lernpfade aus den Vortrainingsdaten zu erkunden und seine Fähigkeiten durch Verstärkungslernen (Reinforcement Learning, RL) zu verbessern. Während bestehende RL-Strategien wie das Verstärkungslernen aus menschlicher Rückmeldung (Reinforcement Learning from Human Feedback, RLHF) oder das Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) auf menschliche Annotationen zur Belohnungskonstruktion angewiesen sind, eliminiert RLPT diesen Bedarf, indem es Belohnungssignale direkt aus den Vortrainingsdaten ableitet. Konkret setzt RLPT ein Next-Segment-Reasoning-Ziel ein, das die Policy belohnt, wenn sie nachfolgende Textsegmente unter Berücksichtigung des vorherigen Kontexts präzise vorhersagt. Diese Formulierung ermöglicht es, das Verstärkungslernen auf Vortrainingsdaten zu skalieren, wodurch die Erkundung reichhaltigerer Lernpfade über weitaus größere Kontexte hinweg gefördert wird und somit allgemeinere, transferierbare Schlussfolgerungsfähigkeiten entstehen. Umfangreiche Experimente an Benchmarks für allgemeine Domänen und mathematische Schlussfolgerung, durchgeführt auf mehreren Modellen, bestätigen die Wirksamkeit von RLPT. So erzielt RLPT beispielsweise bei Qwen3-4B-Base absolute Verbesserungen von 3,0, 5,1, 8,1, 6,0, 6,6 und 5,3 auf den Benchmarks MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 und AIME25. Die Ergebnisse zeigen zudem eine günstige Skalierungseigenschaft, was auf ein starkes Potenzial für weitere Leistungssteigerungen bei weiterer Nutzung von Rechenressourcen hinweist. Darüber hinaus bietet RLPT eine solide Grundlage, die Grenzen der Schlussfolgerungsfähigkeiten von LLMs erweitert und die Leistung von RLVR verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verstärkendes Lernen auf vortrainierten Daten | Forschungsarbeiten | HyperAI