Command Palette
Search for a command to run...
Quantils-Vorteils-Schätzung für entropiesicheres Schließen
Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

Abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verstärkt das Schlussfolgern von großen Sprachmodellen (LLM), doch das Training neigt oft zu Oscillationen zwischen {Entropiekollaps} und {Entropieexplosion}. Wir weisen beide Gefahren auf die Mittelwert-Baselinewahl zurück, die in belohnungsfreiem RL (z. B. GRPO und DAPO) verwendet wird und negative Vorteile unter Belohnungsoutliern unangemessen bestraft. Wir schlagen {Quantil-Vorteilsabschätzung} (QAE) vor, bei der der Mittelwert durch eine gruppenweise K-Quantil-Baselinewahl ersetzt wird. QAE führt eine auf Antwortebene basierende, zweiregimes Schaltvorrichtung ein: Bei schwierigen Anfragen (p ≤ 1 − K) stärkt sie seltene Erfolge, während sie bei einfachen Anfragen (p > 1 − K) verbleibende Misserfolge gezielt anspricht. Unter Erster-Ordnung-Softmax-Updates beweisen wir {zweiseitige Entropiesicherheit}, indem wir untere und obere Schranken für die Änderung der Einstufig-Entropie angeben, die eine Explosion verhindern und einen Kollaps vermeiden. Empirisch stabilisiert diese minimale Modifikation die Entropie, spart die Belohnungszuweisung (bei geeigneter Wahl von K erhalten etwa 80 % der Antworten einen Vorteil von null) und erzielt nachhaltige Verbesserungen bei pass@1 auf Qwen3-8B/14B-Base bei AIME 2024/2025 und AMC 2023. Diese Ergebnisse identifizieren die {Baselinendesign}-Strategie – statt tokenleveler Heuristiken – als primäre Mechanik für die Skalierung von RLVR.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.