HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

ExGRPO: Vom Erleben lernen, zu schließen

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

ExGRPO: Vom Erleben lernen, zu schließen

Abstract

Reinforcement Learning from Verifiable Rewards (RLVR) ist ein aufkommendes Paradigma zur Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle. Allerdings verwirft der herkömmliche On-Policy-Training-Ansatz die während des Rollouts gesammelten Erfahrungen nach einer einzigen Aktualisierung, was zu einer geringen Recheneffizienz und Instabilität führt. Während frühere Arbeiten im Bereich des RL die Vorteile der Wiederverwendung vergangener Erfahrungen hervorgehoben haben, bleibt die Rolle der Erfahrungseigenschaften bei der Gestaltung der Lerndynamik großer Schlussfolgerungsmodelle bisher unzureichend untersucht. In diesem Paper untersuchen wir erstmals, was eine Schlussfolgerungserfahrung wertvoll macht, und identifizieren Korrektheit des Rollouts und Entropie als effektive Indikatoren für den Wert einer Erfahrung. Auf Basis dieser Erkenntnisse stellen wir ExGRPO (Experiential Group Relative Policy Optimization) vor, einen Rahmen, der wertvolle Erfahrungen organisiert und priorisiert sowie ein gemischtes Politikziel nutzt, um die Exploration mit der Ausnutzung von Erfahrungen zu balancieren. Experimente an fünf Hauptmodellen (1,5 B–8 B Parameter) zeigen, dass ExGRPO die Schlussfolgerungsfähigkeit sowohl auf mathematischen als auch auf allgemeinen Benchmarks konsistent verbessert, wobei im Durchschnitt eine Steigerung um +3,5 bzw. +7,6 Punkte gegenüber dem On-Policy-RLVR erzielt wird. Zudem stabilisiert ExGRPO das Training sowohl bei stärkeren als auch bei schwächeren Modellen, bei denen On-Policy-Methoden versagen. Diese Ergebnisse unterstreichen, dass eine prinzipienbasierte Erfahrungsmangement-Strategie ein zentraler Faktor für effizientes und skalierbares RLVR ist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ExGRPO: Vom Erleben lernen, zu schließen | Forschungsarbeiten | HyperAI