HyperAIHyperAI
vor 14 Tagen

R-Null: Selbstentwickelndes Schlussfolgerungs-LLM aus null Daten

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Haitao Mi, Dong Yu
R-Null: Selbstentwickelndes Schlussfolgerungs-LLM aus null Daten
Abstract

Selbstentwickelnde große Sprachmodelle (Large Language Models, LLMs) bieten einen skalierbaren Weg hin zu Superintelligenz, indem sie ihre eigenen Erfahrungen autonom generieren, verfeinern und daraus lernen. Allerdings beruhen bestehende Ansätze zur Schulung solcher Modelle nach wie vor stark auf umfangreichen, von Menschen kuratierten Aufgaben und Etikettierungen, die typischerweise über Feinabstimmung (fine-tuning) oder Verstärkendes Lernen (reinforcement learning) erfolgen. Dies stellt eine grundlegende Engstelle dar, wenn es darum geht, künstliche Intelligenzsysteme über menschliche Intelligenz hinaus zu entwickeln. Um diese Beschränkung zu überwinden, stellen wir R-Zero vor – einen vollständig autonomen Rahmen, der seine eigenen Trainingsdaten von Grund auf generiert. Aus einem einzigen Basis-LLM initialisiert R-Zero zwei unabhängige Modelle mit unterschiedlichen Rollen: einen Challenger und einen Solver. Diese Modelle werden getrennt optimiert und entwickeln sich gemeinsam durch Interaktion weiter: Der Challenger wird belohnt, wenn er Aufgaben nahe der Grenze der Fähigkeiten des Solvers vorschlägt, während der Solver belohnt wird, wenn er immer anspruchsvollere Aufgaben des Challengers löst. Dieser Prozess erzeugt ein gezielt angepasstes, sich selbst verbesserndes Lerncurriculum – ohne jegliche vorherigen Aufgaben oder Etikettierungen. Empirisch verbessert R-Zero die Schlussfolgerungsfähigkeit erheblich bei verschiedenen Grundmodellen (backbone LLMs), beispielsweise erhöht es die Leistung des Qwen3-4B-Base um +6,49 bei mathematischen Schlussfolgerungsbewertungen und um +7,54 bei allgemeinen Schlussfolgerungsbewertungen.