HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR

Abstract

Große Sprachmodelle (LLMs), die für schrittweise Schlussfolgerungen trainiert wurden, neigen oft zu übermäßiger Ausführlichkeit, was die Inferenzkosten erhöht. Standardmäßige Reinforcement-Learning-Pipelines mit überprüfbarer Belohnung (RLVR) filtern zur Verbesserung der Trainingseffizienz „einfache“ Aufgaben aus, wodurch das Modell hauptsächlich an schwierigeren Aufgaben trainiert wird, die längere Schlussfolgerungsketten erfordern. Dies verfälscht die Verteilung der Ausgabekettenlängen nach oben und führt dazu, dass das Modell „länger denken“ mit „besser denken“ gleichsetzt. In dieser Arbeit zeigen wir, dass die Aufrechterhaltung und eine geringfügige Aufwertung von mittelschweren Aufgaben als impliziter Längen-Regulierer wirkt. Durch die Exposition gegenüber lösbaren Aufgaben mit kurzen Schlussfolgerungsketten wird die Ausgabeverteilung des Modells begrenzt und eine ungebremste Ausführlichkeit verhindert. Das Ergebnis ist eine emergente Kürze ohne zusätzlichen Aufwand: Das Modell lernt, schwierigere Aufgaben zu lösen, ohne die Ausgabekettenlänge zu erhöhen – trotz vollständiger Abwesenheit jeglicher expliziten Längenstrafe. RLVR-Experimente mit diesem Ansatz auf Qwen3-4B-Thinking-2507 (mit einer maximalen Token-Grenze von 16k) erreichen die Baseline-Genauigkeit pass@1 für AIME25, während die generierten Lösungen im Durchschnitt fast doppelt so kurz sind. Der Code ist verfügbar unter https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, sowie Datenbanken und Modelle unter https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR | Forschungsarbeiten | HyperAI