il y a 4 mois

OctoThinker : L’incitation en cours de formation favorise l’évolution de l’apprentissage par renforcement

Voir les détails de l'article Voir le code

Zengzhi Wang Fan Zhou Xuefeng Li Pengfei Liu

OctoThinker : L’incitation en cours de formation favorise l’évolution de l’apprentissage par renforcement

Résumé

Différentes familles de modèles de langage de base, comme Llama et Qwen, présentent des comportements divergents lors du post-entraînement avec l'apprentissage par renforcement (AR), en particulier sur les tâches exigeant une forte capacité de raisonnement. Qu'est-ce qui rend un modèle de langage de base adapté à l'apprentissage par renforcement ? Acquérir une compréhension plus approfondie de cette question est essentiel pour développer des modèles fondamentaux de nouvelle génération capables d'évoluer avec l'AR. Dans ce travail, nous examinons comment les stratégies d'entraînement intermédiaire influencent la dynamique de l'AR, en nous concentrant sur deux familles de modèles représentatives : Qwen et Llama. Notre étude révèle que (1) des corpus mathématiques de haute qualité, tels que MegaMath-Web-Pro, améliorent considérablement les performances à la fois du modèle de base et celles obtenues par AR, tandis que les alternatives existantes (par exemple, FineMath-4plus) échouent à le faire ; (2) l'ajout supplémentaire de données au format question-réponse (Q-R), en particulier des exemples de raisonnement en chaîne longue (CoT), renforce les résultats de l'AR, et les données d'instruction amplifient cet effet ; (3) bien que le CoT long améliore la profondeur du raisonnement, il peut également induire une verbosité accrue des réponses du modèle et une instabilité dans l'entraînement par AR, soulignant ainsi l'importance du formatage des données ; (4) l'échelle d'entraînement intermédiaire conduit constamment à une meilleure performance AR en aval. En nous appuyant sur ces observations, nous proposons une stratégie d'entraînement intermédiaire en deux phases, Stable-then-Decay, dans laquelle les modèles de base sont d'abord entraînés sur 200 milliards de jetons avec un taux d'apprentissage constant, puis sur 20 milliards de jetons répartis entre trois branches axées sur le CoT avec un décroissance du taux d'apprentissage. Cette approche donne naissance à OctoThinker, une famille de modèles montrant une forte compatibilité avec l'AR et comblant le fossé des performances avec les familles de modèles plus favorables à l'AR, telles que Qwen. Nous espérons que notre travail contribuera à façonner les stratégies d'pré-entraînement pour les modèles fondamentaux dans l'ère de l'AR. Pour soutenir des recherches ultérieures, nous mettons à disposition nos modèles open source ainsi qu'un corpus spécialisé dans le raisonnement mathématique intensif comprenant plus de 70 milliards de jetons (i.e., MegaMath-Web-Pro-Max).

Dépôts de code

gair-nlp/octothinker

Officiel

pytorch

Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp