vor 3 Monaten

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

Große Sprachmodelle (LLMs), die für schrittweise Schlussfolgerungen trainiert wurden, neigen oft zu übermäßiger Ausführlichkeit, was die Inferenzkosten erhöht. Standardmäßige Reinforcement-Learning-Pipelines mit überprüfbarer Belohnung (RLVR) filtern zur Verbesserung der Trainingseffizienz „einfache“ Aufgaben aus, wodurch das Modell hauptsächlich an schwierigeren Aufgaben trainiert wird, die längere Schlussfolgerungsketten erfordern. Dies verfälscht die Verteilung der Ausgabekettenlängen nach oben und führt dazu, dass das Modell „länger denken“ mit „besser denken“ gleichsetzt. In dieser Arbeit zeigen wir, dass die Aufrechterhaltung und eine geringfügige Aufwertung von mittelschweren Aufgaben als impliziter Längen-Regulierer wirkt. Durch die Exposition gegenüber lösbaren Aufgaben mit kurzen Schlussfolgerungsketten wird die Ausgabeverteilung des Modells begrenzt und eine ungebremste Ausführlichkeit verhindert. Das Ergebnis ist eine emergente Kürze ohne zusätzlichen Aufwand: Das Modell lernt, schwierigere Aufgaben zu lösen, ohne die Ausgabekettenlänge zu erhöhen – trotz vollständiger Abwesenheit jeglicher expliziten Längenstrafe. RLVR-Experimente mit diesem Ansatz auf Qwen3-4B-Thinking-2507 (mit einer maximalen Token-Grenze von 16k) erreichen die Baseline-Genauigkeit pass@1 für AIME25, während die generierten Lösungen im Durchschnitt fast doppelt so kurz sind. Der Code ist verfügbar unter https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, sowie Datenbanken und Modelle unter https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Natürliche Sprachverarbeitung

Aufgabe

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR | Paper | HyperAI

Command Palette

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kürzer, aber nicht schlechter: Sparsame Schlussfolgerung durch einfache Beispiele als Längenregulatoren in der Mathematik-RLVR

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters