Command Palette
Search for a command to run...

Abstract
Die wachsende Diskrepanz zwischen der exponentiellen Skalierung der rechnerischen Ressourcen und dem begrenzten Wachstum qualitativ hochwertiger Textdaten stellt heute eine wesentliche Einschränkung für herkömmliche Skalierungsansätze großer Sprachmodelle (Large Language Models, LLMs) dar. Um dieser Herausforderung zu begegnen, stellen wir RLPT (Reinforcement Learning on Pre-Training data) vor – ein neues Paradigma zur Skalierung während des Trainings zur Optimierung von LLMs. Im Gegensatz zu früheren Ansätzen, die die Skalierung des Trainings hauptsächlich über überwachtes Lernen erreichen, ermöglicht RLPT es dem Policy-Modell, autonom sinnvolle Lernpfade aus den Vortrainingsdaten zu erkunden und seine Fähigkeiten durch Verstärkungslernen (Reinforcement Learning, RL) zu verbessern. Während bestehende RL-Strategien wie das Verstärkungslernen aus menschlicher Rückmeldung (Reinforcement Learning from Human Feedback, RLHF) oder das Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) auf menschliche Annotationen zur Belohnungskonstruktion angewiesen sind, eliminiert RLPT diesen Bedarf, indem es Belohnungssignale direkt aus den Vortrainingsdaten ableitet. Konkret setzt RLPT ein Next-Segment-Reasoning-Ziel ein, das die Policy belohnt, wenn sie nachfolgende Textsegmente unter Berücksichtigung des vorherigen Kontexts präzise vorhersagt. Diese Formulierung ermöglicht es, das Verstärkungslernen auf Vortrainingsdaten zu skalieren, wodurch die Erkundung reichhaltigerer Lernpfade über weitaus größere Kontexte hinweg gefördert wird und somit allgemeinere, transferierbare Schlussfolgerungsfähigkeiten entstehen. Umfangreiche Experimente an Benchmarks für allgemeine Domänen und mathematische Schlussfolgerung, durchgeführt auf mehreren Modellen, bestätigen die Wirksamkeit von RLPT. So erzielt RLPT beispielsweise bei Qwen3-4B-Base absolute Verbesserungen von 3,0, 5,1, 8,1, 6,0, 6,6 und 5,3 auf den Benchmarks MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 und AIME25. Die Ergebnisse zeigen zudem eine günstige Skalierungseigenschaft, was auf ein starkes Potenzial für weitere Leistungssteigerungen bei weiterer Nutzung von Rechenressourcen hinweist. Darüber hinaus bietet RLPT eine solide Grundlage, die Grenzen der Schlussfolgerungsfähigkeiten von LLMs erweitert und die Leistung von RLVR verbessert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.