HyperAIHyperAI

Command Palette

Search for a command to run...

vor 12 Tagen

BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

Abstract

Reinforcement Learning (RL) ist in letzter Zeit zum zentralen Paradigma für die Ausrichtung und Stärkung großer Sprachmodelle (LLMs) geworden. Die Anwendung von RL in off-policy-Szenarien – bei denen veraltete Daten aus früheren Poli­ten zur Ausbildung genutzt werden – verbessert die Stichproben-Effizienz, birgt jedoch weiterhin erhebliche Herausforderungen: Die Poli­ten-Entropie sinkt stark ab, die Optimierung wird oft instabil und kann sogar kollabieren. Durch theoretische und empirische Analysen identifizieren wir zwei zentrale Erkenntnisse: (i) ein Ungleichgewicht bei der Optimierung, bei dem Stichproben mit negativem Vorteil die Poli­ten-Gradienten dominieren, nützliche Verhaltensweisen unterdrücken und die Gefahr von Gradienten-Explosionen erhöhen; und (ii) die abgeleitete Entropie-Clip-Regel, die zeigt, dass die feste Clip-Mechanik in PPO-ähnlichen Zielfunktionen Entropie-erhöhende Updates systematisch blockiert, wodurch die Politik zu einer Über-Exploitation im Schaden der Exploration tendiert. Aufbauend auf diesen Erkenntnissen schlagen wir BAlanced Policy Optimization with Adaptive Clipping (BAPO) vor – eine einfache, aber effektive Methode, die die Clip-Grenzen dynamisch anpasst, um positiven und negativen Beiträgen adaptiv ein Gleichgewicht zu geben, die Entropie zu bewahren und die Stabilität der RL-Optimierung zu gewährleisten. In vielfältigen off-policy-Szenarien – einschließlich Stichproben-Wiederholung und partieller Rollout – erreicht BAPO eine schnelle, stabile und daten-effiziente Ausbildung. Auf den Benchmarks AIME 2024 und AIME 2025 übertrifft unser 7B-BAPO-Modell offene Quellcode-Modelle wie SkyWork-OR1-7B, während unser 32B-BAPO-Modell nicht nur die derzeit besten Ergebnisse unter Modellen gleicher Größenordnung erzielt, sondern auch führende proprietäre Systeme wie o3-mini und Gemini-2.5-Flash-Thinking schlägt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik | Forschungsarbeiten | HyperAI