HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques

Résumé

L'apprentissage par renforcement fondé sur des politiques joue actuellement un rôle crucial dans l'amélioration des LLM (modèles linguistiques à grande échelle) sur les tâches de raisonnement mathématique. Toutefois, les méthodes actuelles d'apprentissage par renforcement basées sur les échantillonnages (rollout) — telles que GRPO, DAPO, GSPO, etc. — ne tiennent pas explicitement compte de la capacité d'apprentissage des LLM face à des échantillons de niveaux de difficulté variés, ce qui va à l'encontre du processus cognitif humain de résolution de problèmes mathématiques, allant du facile au difficile. De manière intuitive, nous observons que la variance des récompenses du groupe d'échantillonnages dans RLVR reflète partiellement, de façon indirecte, le niveau de difficulté du problème actuel pour le LLM. En effet, les échantillons trop faciles ou trop difficiles présentent une faible variance, tandis que ceux de difficulté modérée entraînent une variance plus élevée. À partir de cette observation, nous proposons VCRL, un cadre d'apprentissage par renforcement curriculaire qui ajuste dynamiquement le niveau de difficulté des échantillons d'entraînement en fonction de la variance des récompenses du groupe. Des expériences menées sur cinq benchmarks mathématiques et deux modèles mettent en évidence les avantages de VCRL par rapport aux méthodes de base actuelles d'apprentissage par renforcement pour LLM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VCRL : apprentissage par renforcement avec curriculum basé sur la variance pour les grands modèles linguistiques | Articles de recherche | HyperAI