Command Palette
Search for a command to run...
QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Verstärkungslernen für LLMs

Abstract
Wir stellen QeRL, einen durch Quantisierung verbesserten Rahmen für Verstärkendes Lernen (Reinforcement Learning, RL) für große Sprachmodelle (Large Language Models, LLMs), vor. Während RL für die Schlussfolgerungsfähigkeiten von LLMs entscheidend ist, ist er ressourcenintensiv und erfordert erhebliche GPU-Speicherkapazität sowie lange Rollout-Phasen. QeRL adressiert diese Herausforderungen, indem es die NVFP4-Quantisierung mit der Low-Rank-Adaptation (LoRA) kombiniert, wodurch die Rollout-Phase des RL beschleunigt und der Speicherverbrauch reduziert wird. Neben der Effizienz zeigen unsere Ergebnisse, dass Quantisierungsrauschen die Politik-Entropie erhöht, die Exploration verbessert und somit die Entdeckung besserer Strategien während des RL ermöglicht. Um die Exploration weiter zu optimieren, führt QeRL eine adaptive Quantisierungsrauschen-Mechanismus (Adaptive Quantization Noise, AQN) ein, der den Rauschwert während des Trainings dynamisch anpasst. Experimente belegen, dass QeRL eine Beschleunigung der Rollout-Phase um mehr als das 1,5-fache erreicht. Darüber hinaus ist QeRL der erste Rahmen, der es ermöglicht, ein 32B-LLM auf einer einzigen H100-80GB-GPU für das RL-Training einzusetzen, während insgesamt eine höhere Trainingsgeschwindigkeit erzielt wird. Zudem erreicht QeRL eine schnellere Belohnungswachstumsrate und eine höhere Endgenauigkeit im Vergleich zu 16-Bit-LoRA und QLoRA, und erreicht bei mathematischen Benchmarks wie GSM8K (90,8 %) und MATH 500 (77,4 %) bei Modellen mit 7B Parametern die Leistung von vollständiger Parameter-Feinabstimmung. Diese Ergebnisse etablieren QeRL als einen effizienten und wirksamen Rahmen für das RL-Training in großen Sprachmodellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.