HyperAIHyperAI

Command Palette

Search for a command to run...

VCRL: varianzbasierendes Curriculum-Verstärkungslernen für große Sprachmodelle

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

Zusammenfassung

Policy-basiertes Verstärkungslernen spielt derzeit eine wichtige Rolle bei der Verbesserung von großen Sprachmodellen (LLMs) bei mathematischen Schlussfolgerungsaufgaben. Allerdings berücksichtigen bestehende auf Rollouts basierende Verstärkungslernmethoden (wie GRPO, DAPO, GSPO usw.) die Lernfähigkeit von LLMs für Aufgaben unterschiedlicher Schwierigkeitsgrade nicht explizit – ein Mangel, der im Widerspruch zur menschlichen kognitiven Vorgehensweise bei mathematischen Aufgaben steht, bei der von einfachen zu schwierigeren Aufgaben vorgegangen wird. Intuitiv stellen wir fest, dass die Varianz der Belohnung der Rollout-Gruppe im RLVR teilweise die Schwierigkeit der aktuellen Aufgabe für das LLM widerspiegelt: Aufgaben, die zu leicht oder zu schwer sind, weisen eine geringere Varianz auf, während Aufgaben mit mittlerer Schwierigkeit eine höhere Varianz aufweisen. Ausgehend davon schlagen wir VCRL vor – einen Curriculum-Verstärkungslernrahmen, der die Schwierigkeit der Trainingsaufgaben dynamisch anhand der Varianz der Gruppenbelohnungen steuert. Experimente an fünf mathematischen Benchmarks und zwei Modellen belegen die Überlegenheit von VCRL gegenüber aktuellen LLM-Verstärkungslern-Standardverfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp