Command Palette
Search for a command to run...
Evolutionsfähige Sprachmodelle ohne Labels: Die Mehrheit steuert die Auswahl, Neuheit fördert die Variabilität
Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

Abstract
Große Sprachmodelle (LLMs) werden zunehmend mit der Verstärkungslernmethode aus überprüfbaren Belohnungen (Reinforcement Learning from Verifiable Rewards, RLVR) trainiert. Dennoch erfordert die praktische Anwendung in der Realwelt Modelle, die sich selbst verbessern können, ohne auf gelabelte Daten oder externe Beurteiler angewiesen zu sein. Bestehende label-free-Methoden wie Vertrauensminimierung, Selbstkonsistenz oder Mehrheitsabstimmungsziele stabilisieren den Lernprozess, führen jedoch zu einer kontinuierlichen Verengung des Suchraums und verursachen eine Entropiekollaps: Die generierten Antworten werden kürzer, weniger vielfältig und anfällig. Im Gegensatz zu früheren Ansätzen wie Test-Time Reinforcement Learning (TTRL), die primär darauf abzielen, Modelle an die ungelabelten Datensätze vor Ort anzupassen, verfolgen wir ein weiter gefasstes Ziel: eine allgemeine Verbesserung der Modellleistung zu ermöglichen, ohne die inhärente Explorationstiefe und die Generalisierungsfähigkeit des Modells zu opfern – also eine evolutionäre Weiterentwicklung. Wir formalisieren dieses Problem und stellen EVOL-RL (EVolution-Oriented and Label-free Reinforcement Learning) vor, eine einfache Regel, die Stabilität und Vielfalt unter einem label-free-Setting miteinander verbindet. EVOL-RL verwendet die Mehrheitsantwort als stabile Referenz (Auswahl), während gleichzeitig eine neuartigkeitsbewusste Belohnung eingeführt wird, die Antworten begünstigt, deren Schlussfolgerungen sich semantisch von bereits generierten unterscheiden (Variation). Diese Belohnung wird im semantischen Raum gemessen. In Kombination mit GRPO (Generalized Reward Policy Optimization) verwendet EVOL-RL außerdem asymmetrische Clipping-Techniken zur Erhaltung starker Signalanteile und einen Entropie-Regularisator, um die Suche aktiv zu erhalten. Die Kombination aus Mehrheitswahl zur Auswahl und Neuheitserkennung zur Variation verhindert den Kollaps, bewahrt längere und informativere Denkketten und verbessert sowohl pass@1 als auch pass@n. EVOL-RL übertrifft konsistent die allein auf Mehrheitswahl basierende TTRL-Benchmark; beispielsweise erhöht die Schulung auf label-free AIME24 die pass@1-Werte von Qwen3-4B-Base auf AIME25 von TTRL’s 4,6 % auf 16,4 %, und pass@16 von 18,5 % auf 37,9 %. EVOL-RL verhindert nicht nur den Verlust der Vielfalt, sondern ermöglicht auch eine stärkere Generalisierung über Domänen hinweg (z. B. GPQA). Darüber hinaus zeigen wir, dass EVOL-RL auch in der RLVR-Umgebung die Leistung steigert, was seine breite Anwendbarkeit unterstreicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.