HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 4 Tagen

Weiche adaptive Politik-Optimierung

Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin

Weiche adaptive Politik-Optimierung

Abstract

Reinforcement Learning (RL) spielt eine zunehmend wichtige Rolle bei der Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs), dennoch bleibt eine stabile und leistungsfähige Politikoptimierung weiterhin herausfordernd. Token-basierte Wichtungsverhältnisse weisen oft eine hohe Varianz auf – ein Phänomen, das sich in Mixture-of-Experts-Modellen noch verstärkt und zu instabilen Updates führt. Bestehende, gruppenbasierte Methoden zur Politikoptimierung wie GSPO und GRPO lindern dieses Problem durch harte Clipping-Operationen, wodurch es schwierig wird, sowohl Stabilität als auch effektives Lernen zu gewährleisten. Wir stellen Soft Adaptive Policy Optimization (SAPO) vor, das harte Clipping durch ein glattes, temperaturgesteuertes Gating ersetzt, das off-policy-Updates adaptiv dämpft, gleichzeitig aber nützliche Lernsignale bewahrt. Im Vergleich zu GSPO und GRPO ist SAPO sowohl sequenzkohärent als auch tokenadaptiv. Ähnlich wie GSPO gewährleistet SAPO Kohärenz auf Sequenzebene, doch bildet sein weiches Gating einen kontinuierlichen Vertrauensbereich, der die spröde, harte Clipping-Band von GSPO vermeidet. Wenn eine Sequenz wenige stark off-policy-Token enthält, unterdrückt GSPO die gesamten Gradienten für diese Sequenz, während SAPO lediglich die problematischen Tokens selektiv abschwächt und gleichzeitig das Lernsignal der nahezu on-policy-Token bewahrt – was die Sample-Effizienz verbessert. Im Vergleich zu GRPO ersetzt SAPO das harte, tokenbasierte Clipping durch eine glatte, temperaturgesteuerte Skalierung, was stabilere und informativere Updates ermöglicht. Empirische Ergebnisse auf mathematischen Schlussfolgerungsbenchmarks zeigen, dass SAPO eine verbesserte Trainingsstabilität und höhere Pass@1-Leistung bei vergleichbaren Trainingsbudgets aufweist. Darüber hinaus setzen wir SAPO ein, um die Qwen3-VL-Modellreihe zu trainieren, wobei sich zeigt, dass SAPO konsistente Leistungsverbesserungen über verschiedene Aufgaben und unterschiedliche Modellgrößen hinweg erzielt. Insgesamt bietet SAPO eine zuverlässigere, skalierbarere und effektivere Optimierungsstrategie für die RL-Trainings von LLMs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Weiche adaptive Politik-Optimierung | Forschungsarbeiten | HyperAI