Command Palette
Search for a command to run...
BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

Abstract
Reinforcement Learning (RL) ist in letzter Zeit zum zentralen Paradigma für die Ausrichtung und Stärkung großer Sprachmodelle (LLMs) geworden. Die Anwendung von RL in off-policy-Szenarien – bei denen veraltete Daten aus früheren Politen zur Ausbildung genutzt werden – verbessert die Stichproben-Effizienz, birgt jedoch weiterhin erhebliche Herausforderungen: Die Politen-Entropie sinkt stark ab, die Optimierung wird oft instabil und kann sogar kollabieren. Durch theoretische und empirische Analysen identifizieren wir zwei zentrale Erkenntnisse: (i) ein Ungleichgewicht bei der Optimierung, bei dem Stichproben mit negativem Vorteil die Politen-Gradienten dominieren, nützliche Verhaltensweisen unterdrücken und die Gefahr von Gradienten-Explosionen erhöhen; und (ii) die abgeleitete Entropie-Clip-Regel, die zeigt, dass die feste Clip-Mechanik in PPO-ähnlichen Zielfunktionen Entropie-erhöhende Updates systematisch blockiert, wodurch die Politik zu einer Über-Exploitation im Schaden der Exploration tendiert. Aufbauend auf diesen Erkenntnissen schlagen wir BAlanced Policy Optimization with Adaptive Clipping (BAPO) vor – eine einfache, aber effektive Methode, die die Clip-Grenzen dynamisch anpasst, um positiven und negativen Beiträgen adaptiv ein Gleichgewicht zu geben, die Entropie zu bewahren und die Stabilität der RL-Optimierung zu gewährleisten. In vielfältigen off-policy-Szenarien – einschließlich Stichproben-Wiederholung und partieller Rollout – erreicht BAPO eine schnelle, stabile und daten-effiziente Ausbildung. Auf den Benchmarks AIME 2024 und AIME 2025 übertrifft unser 7B-BAPO-Modell offene Quellcode-Modelle wie SkyWork-OR1-7B, während unser 32B-BAPO-Modell nicht nur die derzeit besten Ergebnisse unter Modellen gleicher Größenordnung erzielt, sondern auch führende proprietäre Systeme wie o3-mini und Gemini-2.5-Flash-Thinking schlägt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.