vor einem Monat

VCRL: varianzbasierendes Curriculum-Verstärkungslernen für große Sprachmodelle

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

Abstract

Policy-basiertes Verstärkungslernen spielt derzeit eine wichtige Rolle bei der Verbesserung von großen Sprachmodellen (LLMs) bei mathematischen Schlussfolgerungsaufgaben. Allerdings berücksichtigen bestehende auf Rollouts basierende Verstärkungslernmethoden (wie GRPO, DAPO, GSPO usw.) die Lernfähigkeit von LLMs für Aufgaben unterschiedlicher Schwierigkeitsgrade nicht explizit – ein Mangel, der im Widerspruch zur menschlichen kognitiven Vorgehensweise bei mathematischen Aufgaben steht, bei der von einfachen zu schwierigeren Aufgaben vorgegangen wird. Intuitiv stellen wir fest, dass die Varianz der Belohnung der Rollout-Gruppe im RLVR teilweise die Schwierigkeit der aktuellen Aufgabe für das LLM widerspiegelt: Aufgaben, die zu leicht oder zu schwer sind, weisen eine geringere Varianz auf, während Aufgaben mit mittlerer Schwierigkeit eine höhere Varianz aufweisen. Ausgehend davon schlagen wir VCRL vor – einen Curriculum-Verstärkungslernrahmen, der die Schwierigkeit der Trainingsaufgaben dynamisch anhand der Varianz der Gruppenbelohnungen steuert. Experimente an fünf mathematischen Benchmarks und zwei Modellen belegen die Überlegenheit von VCRL gegenüber aktuellen LLM-Verstärkungslern-Standardverfahren.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VCRL: varianzbasierendes Curriculum-Verstärkungslernen für große Sprachmodelle

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters