vor einem Monat

Quantils-Vorteils-Schätzung für entropiesicheres Schließen

Details der Forschungsarbeit anzeigen Code anzeigen

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

Quantils-Vorteils-Schätzung für entropiesicheres Schließen

Abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verstärkt das Schlussfolgern von großen Sprachmodellen (LLM), doch das Training neigt oft zu Oscillationen zwischen {Entropiekollaps} und {Entropieexplosion}. Wir weisen beide Gefahren auf die Mittelwert-Baselinewahl zurück, die in belohnungsfreiem RL (z. B. GRPO und DAPO) verwendet wird und negative Vorteile unter Belohnungsoutliern unangemessen bestraft. Wir schlagen {Quantil-Vorteilsabschätzung} (QAE) vor, bei der der Mittelwert durch eine gruppenweise K-Quantil-Baselinewahl ersetzt wird. QAE führt eine auf Antwortebene basierende, zweiregimes Schaltvorrichtung ein: Bei schwierigen Anfragen (p ≤ 1 − K) stärkt sie seltene Erfolge, während sie bei einfachen Anfragen (p > 1 − K) verbleibende Misserfolge gezielt anspricht. Unter Erster-Ordnung-Softmax-Updates beweisen wir {zweiseitige Entropiesicherheit}, indem wir untere und obere Schranken für die Änderung der Einstufig-Entropie angeben, die eine Explosion verhindern und einen Kollaps vermeiden. Empirisch stabilisiert diese minimale Modifikation die Entropie, spart die Belohnungszuweisung (bei geeigneter Wahl von K erhalten etwa 80 % der Antworten einen Vorteil von null) und erzielt nachhaltige Verbesserungen bei pass@1 auf Qwen3-8B/14B-Base bei AIME 2024/2025 und AMC 2023. Diese Ergebnisse identifizieren die {Baselinendesign}-Strategie – statt tokenleveler Heuristiken – als primäre Mechanik für die Skalierung von RLVR.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Quantils-Vorteils-Schätzung für entropiesicheres Schließen

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

Abstract

KI mit KI entwickeln

Hyper Newsletters