HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Quantils-Vorteils-Schätzung für entropiesicheres Schließen

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

Quantils-Vorteils-Schätzung für entropiesicheres Schließen

Abstract

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verstärkt das Schlussfolgern von großen Sprachmodellen (LLM), doch das Training neigt oft zu Oscillationen zwischen {Entropiekollaps} und {Entropieexplosion}. Wir weisen beide Gefahren auf die Mittelwert-Baselinewahl zurück, die in belohnungsfreiem RL (z. B. GRPO und DAPO) verwendet wird und negative Vorteile unter Belohnungsoutliern unangemessen bestraft. Wir schlagen {Quantil-Vorteilsabschätzung} (QAE) vor, bei der der Mittelwert durch eine gruppenweise K-Quantil-Baselinewahl ersetzt wird. QAE führt eine auf Antwortebene basierende, zweiregimes Schaltvorrichtung ein: Bei schwierigen Anfragen (p ≤ 1 − K) stärkt sie seltene Erfolge, während sie bei einfachen Anfragen (p > 1 − K) verbleibende Misserfolge gezielt anspricht. Unter Erster-Ordnung-Softmax-Updates beweisen wir {zweiseitige Entropiesicherheit}, indem wir untere und obere Schranken für die Änderung der Einstufig-Entropie angeben, die eine Explosion verhindern und einen Kollaps vermeiden. Empirisch stabilisiert diese minimale Modifikation die Entropie, spart die Belohnungszuweisung (bei geeigneter Wahl von K erhalten etwa 80 % der Antworten einen Vorteil von null) und erzielt nachhaltige Verbesserungen bei pass@1 auf Qwen3-8B/14B-Base bei AIME 2024/2025 und AMC 2023. Diese Ergebnisse identifizieren die {Baselinendesign}-Strategie – statt tokenleveler Heuristiken – als primäre Mechanik für die Skalierung von RLVR.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Quantils-Vorteils-Schätzung für entropiesicheres Schließen | Forschungsarbeiten | HyperAI