vor 12 Tagen

BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

Details der Forschungsarbeit anzeigen Code anzeigen

Zhiheng Xi Xin Guo Yang Nan Enyu Zhou Junrui Shen Wenxiang Chen Jiaqi Liu Jixuan Huang Zhihao Zhang Honglin Guo

BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

Abstract

Reinforcement Learning (RL) ist in letzter Zeit zum zentralen Paradigma für die Ausrichtung und Stärkung großer Sprachmodelle (LLMs) geworden. Die Anwendung von RL in off-policy-Szenarien – bei denen veraltete Daten aus früheren Politen zur Ausbildung genutzt werden – verbessert die Stichproben-Effizienz, birgt jedoch weiterhin erhebliche Herausforderungen: Die Politen-Entropie sinkt stark ab, die Optimierung wird oft instabil und kann sogar kollabieren. Durch theoretische und empirische Analysen identifizieren wir zwei zentrale Erkenntnisse: (i) ein Ungleichgewicht bei der Optimierung, bei dem Stichproben mit negativem Vorteil die Politen-Gradienten dominieren, nützliche Verhaltensweisen unterdrücken und die Gefahr von Gradienten-Explosionen erhöhen; und (ii) die abgeleitete Entropie-Clip-Regel, die zeigt, dass die feste Clip-Mechanik in PPO-ähnlichen Zielfunktionen Entropie-erhöhende Updates systematisch blockiert, wodurch die Politik zu einer Über-Exploitation im Schaden der Exploration tendiert. Aufbauend auf diesen Erkenntnissen schlagen wir BAlanced Policy Optimization with Adaptive Clipping (BAPO) vor – eine einfache, aber effektive Methode, die die Clip-Grenzen dynamisch anpasst, um positiven und negativen Beiträgen adaptiv ein Gleichgewicht zu geben, die Entropie zu bewahren und die Stabilität der RL-Optimierung zu gewährleisten. In vielfältigen off-policy-Szenarien – einschließlich Stichproben-Wiederholung und partieller Rollout – erreicht BAPO eine schnelle, stabile und daten-effiziente Ausbildung. Auf den Benchmarks AIME 2024 und AIME 2025 übertrifft unser 7B-BAPO-Modell offene Quellcode-Modelle wie SkyWork-OR1-7B, während unser 32B-BAPO-Modell nicht nur die derzeit besten Ergebnisse unter Modellen gleicher Größenordnung erzielt, sondern auch führende proprietäre Systeme wie o3-mini und Gemini-2.5-Flash-Thinking schlägt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

BAPO: Stabilisierung der off-policy Verstärkungslernverfahren für Sprachmodelle mittels ausgewogener Politikoptimierung mit adaptiver Clipping-Technik

Zhiheng Xi Xin Guo Yang Nan Enyu Zhou Junrui Shen Wenxiang Chen Jiaqi Liu Jixuan Huang Zhihao Zhang Honglin Guo11 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Zhiheng Xi Xin Guo Yang Nan Enyu Zhou Junrui Shen Wenxiang Chen Jiaqi Liu Jixuan Huang Zhihao Zhang Honglin Guo