HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Zufällige Politikbewertung reicht aus für LLM-Reasoning mit überprüfbaren Belohnungen

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

Zufällige Politikbewertung reicht aus für LLM-Reasoning mit überprüfbaren Belohnungen

Abstract

RL mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) etabliert. Aktuelle Methoden basieren hauptsächlich auf Policy-Optimierungsrahmen wie PPO und GRPO, die eine verallgemeinerte Policy-Iteration verfolgen, bei der die Bewertung des aktuellen Policies-Werts und die Verbesserung der Policy auf Basis dieser Bewertung abwechselnd erfolgen. Obwohl diese Ansätze wirksam sind, leiden sie häufig unter Training-Instabilität und Diversitätskollaps, weshalb komplexe heuristische Tricks und sorgfältige Abstimmung erforderlich sind. Wir beobachten, dass der herkömmliche RLVR-Ansatz im Bereich mathematischer Schlussfolgerung als ein spezialisierter endlicher Horizont-Markov-Entscheidungsprozess mit deterministischen Zustandsübergängen, baumartiger Dynamik und binären Endbelohnungen formuliert werden kann. Obwohl die Skalierung groß ist, ist die zugrundeliegende Struktur einfacher als allgemeine Steuerungsansätze, für die populäre RL-Algorithmen (z. B. PPO) entwickelt wurden. Dies legt nahe, dass mehrere anspruchsvolle Techniken in bestehenden Methoden reduziert oder sogar entfallen können. Auf Basis dieses Einblicks beweisen wir ein überraschendes Ergebnis: Die optimale Aktion kann aus der Q-Funktion einer festen, gleichmäßig zufälligen Policy abgeleitet werden, wodurch die verallgemeinerte Policy-Iteration und die damit verbundenen Heuristiken umgangen werden können. Wir stellen ROVER (Random Policy Valuation for Diverse Reasoning) vor, ein praktikables und skalierbares Algorithmus-Paradigma für die mathematische Schlussfolgerung durch LLMs, das dieses Prinzip umsetzt. ROVER ist eine minimalistische, dennoch hochwirksame RL-Methode, die Aktionen aus einer Softmax-Verteilung über die Q-Werte dieser gleichmäßigen Policy zieht. ROVER bewahrt während des gesamten Trainings die Diversität und ermöglicht eine kontinuierliche Erkundung mehrerer gültiger Lösungspfade. In mehreren Basismodellen und standardisierten Benchmarks zur mathematischen Schlussfolgerung zeigt ROVER sowohl in Bezug auf Qualität (+8,2 bei pass@1, +16,8 bei pass@256) als auch in Bezug auf Diversität (+17,6 %) überlegene Leistung – trotz der radikalen Vereinfachung gegenüber bestehenden, komplexen und leistungsfähigen Ansätzen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zufällige Politikbewertung reicht aus für LLM-Reasoning mit überprüfbaren Belohnungen | Forschungsarbeiten | HyperAI