Command Palette
Search for a command to run...
LoongRL: Verstärkendes Lernen für fortgeschrittenes Schließen bei langen Kontexten
Siyuan Wang Gaokai Zhang Li Lyna Zhang Ning Shang Fan Yang Dongyao Chen Mao Yang

Abstract
Die Verarbeitung langer Kontexte ist für große Sprachmodelle von entscheidender Bedeutung. Während die Verstärkungslernverfahren (Reinforcement Learning, RL) die Kurzkontext-Reasoning-Fähigkeiten durch die Induktion sogenannter „Aha!“-Momente im Chain-of-Thought-Paradigma verbessern, bleiben die anspruchsvollen Denkmuster, die für die langkontextbasierte Reasoning erforderlich sind, weitgehend unerforscht, und hochkomplexe RL-Daten sind selten. In diesem Paper stellen wir LoongRL vor, eine datenbasierte RL-Methode für fortgeschrittene langkontextbasierte Reasoning-Aufgaben. Kernstück von LoongRL ist KeyChain, ein Syntheseverfahren, das kurze Multi-Hop-Frage-Antwort-Aufgaben in anspruchsvolle langkontextbasierte Aufgaben umwandelt, indem UUID-Ketten eingefügt werden, die die eigentliche Frage in großen Sammlungen ablenkender Dokumente verbergen. Die Lösung solcher Aufgaben erfordert von dem Modell, die korrekte Kette Schritt für Schritt zu verfolgen, die wahre Frage zu identifizieren, relevante Fakten zu retrieven und diese schließlich zu verarbeiten, um korrekt zu antworten. Die RL-Trainingsphase auf KeyChain-Daten induziert ein emergentes Planen-Abfragen-Verarbeiten-Überprüfen-Reasoning-Muster, das sich deutlich über die Trainingslänge hinaus generalisiert. Modelle, die mit einer Länge von 16K trainiert wurden, können Aufgaben mit einer Länge von 128K effektiv lösen, ohne dass die Kosten für umfassende RL-Backprojections unzumutbar hoch werden. Auf Qwen2.5-7B und 14B erzielt LoongRL eine signifikante Steigerung der Genauigkeit bei langkontextbasierten Multi-Hop-Frage-Antwort-Aufgaben mit absoluten Verbesserungen von +23,5 % und +21,1 %. Das resultierende Modell LoongRL-14B erreicht eine Bewertung von 74,2 und konkurriert mit viel größeren State-of-the-Art-Modellen wie o3-mini (74,5) und DeepSeek-R1 (74,9). Zudem verbessert LoongRL die Leistung bei der langkontextbasierten Retrieval-Aufgabe, besteht alle 128K-„Needle-in-a-Haystack“-Stresstests, und bewahrt gleichzeitig die Fähigkeiten im Kurzkontext-Reasoning.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.