vor 21 Tagen

QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Verstärkungslernen für LLMs

Details der Forschungsarbeit anzeigen Code anzeigen

Wei Huang Yi Ge Shuai Yang Yicheng Xiao Huizi Mao Yujun Lin Hanrong Ye Sifei Liu Ka Chun Cheung Hongxu Yin

QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Verstärkungslernen für LLMs

Abstract

Wir stellen QeRL, einen durch Quantisierung verbesserten Rahmen für Verstärkendes Lernen (Reinforcement Learning, RL) für große Sprachmodelle (Large Language Models, LLMs), vor. Während RL für die Schlussfolgerungsfähigkeiten von LLMs entscheidend ist, ist er ressourcenintensiv und erfordert erhebliche GPU-Speicherkapazität sowie lange Rollout-Phasen. QeRL adressiert diese Herausforderungen, indem es die NVFP4-Quantisierung mit der Low-Rank-Adaptation (LoRA) kombiniert, wodurch die Rollout-Phase des RL beschleunigt und der Speicherverbrauch reduziert wird. Neben der Effizienz zeigen unsere Ergebnisse, dass Quantisierungsrauschen die Politik-Entropie erhöht, die Exploration verbessert und somit die Entdeckung besserer Strategien während des RL ermöglicht. Um die Exploration weiter zu optimieren, führt QeRL eine adaptive Quantisierungsrauschen-Mechanismus (Adaptive Quantization Noise, AQN) ein, der den Rauschwert während des Trainings dynamisch anpasst. Experimente belegen, dass QeRL eine Beschleunigung der Rollout-Phase um mehr als das 1,5-fache erreicht. Darüber hinaus ist QeRL der erste Rahmen, der es ermöglicht, ein 32B-LLM auf einer einzigen H100-80GB-GPU für das RL-Training einzusetzen, während insgesamt eine höhere Trainingsgeschwindigkeit erzielt wird. Zudem erreicht QeRL eine schnellere Belohnungswachstumsrate und eine höhere Endgenauigkeit im Vergleich zu 16-Bit-LoRA und QLoRA, und erreicht bei mathematischen Benchmarks wie GSM8K (90,8 %) und MATH 500 (77,4 %) bei Modellen mit 7B Parametern die Leistung von vollständiger Parameter-Feinabstimmung. Diese Ergebnisse etablieren QeRL als einen effizienten und wirksamen Rahmen für das RL-Training in großen Sprachmodellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

QeRL: Über Effizienz hinaus – Quantisierungsverstärktes Verstärkungslernen für LLMs

Wei Huang Yi Ge Shuai Yang Yicheng Xiao Huizi Mao Yujun Lin Hanrong Ye Sifei Liu Ka Chun Cheung Hongxu Yin4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Wei Huang Yi Ge Shuai Yang Yicheng Xiao Huizi Mao Yujun Lin Hanrong Ye Sifei Liu Ka Chun Cheung Hongxu Yin