Command Palette
Search for a command to run...
VCRL: varianzbasierendes Curriculum-Verstärkungslernen für große Sprachmodelle
Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

Abstract
Policy-basiertes Verstärkungslernen spielt derzeit eine wichtige Rolle bei der Verbesserung von großen Sprachmodellen (LLMs) bei mathematischen Schlussfolgerungsaufgaben. Allerdings berücksichtigen bestehende auf Rollouts basierende Verstärkungslernmethoden (wie GRPO, DAPO, GSPO usw.) die Lernfähigkeit von LLMs für Aufgaben unterschiedlicher Schwierigkeitsgrade nicht explizit – ein Mangel, der im Widerspruch zur menschlichen kognitiven Vorgehensweise bei mathematischen Aufgaben steht, bei der von einfachen zu schwierigeren Aufgaben vorgegangen wird. Intuitiv stellen wir fest, dass die Varianz der Belohnung der Rollout-Gruppe im RLVR teilweise die Schwierigkeit der aktuellen Aufgabe für das LLM widerspiegelt: Aufgaben, die zu leicht oder zu schwer sind, weisen eine geringere Varianz auf, während Aufgaben mit mittlerer Schwierigkeit eine höhere Varianz aufweisen. Ausgehend davon schlagen wir VCRL vor – einen Curriculum-Verstärkungslernrahmen, der die Schwierigkeit der Trainingsaufgaben dynamisch anhand der Varianz der Gruppenbelohnungen steuert. Experimente an fünf mathematischen Benchmarks und zwei Modellen belegen die Überlegenheit von VCRL gegenüber aktuellen LLM-Verstärkungslern-Standardverfahren.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.