HyperAI
Back to Headlines

Rechercheurs de Shanghai Jiao Tong présentent OctoThinker : Une avancée majeure dans le développement d'LLM pour l'apprentissage par renforcement

il y a 4 jours

Résumé : Shanghai Jiao Tong Researchers Proposent OctoThinker pour le Développement d'LLMs Scalables avec l'Apprentissage par Renforcement Introduction Les modèles linguistiques de grande envergure (LLMs) ont fait d'excellents progrès dans les tâches de raisonnement complexes grâce au prompt à chaîne de pensée (CoT) combiné avec l'apprentissage par renforcement (RL) à grande échelle. Des modèles comme Deepseek-R1-Zero montrent une forte capacité de raisonnement en appliquant directement le RL aux modèles de base, tandis que des méthodes comme SimpleRL et Open-ReasonerZero offrent des améliorations pour des modèles plus petits comme la série Qwen. Toutefois, l'obtention de résultats similaires sur différentes familles de modèles de base reste difficile, notamment pour la famille Llama. Limitations du RL à Grande Échelle sur les Modèles Llama Le RL à grande échelle a progressé pour des modèles comme OpenAI's o1, o3 et DeepSeek's R1 sur des problèmes de mathématiques de niveau compétitif. Cependant, ces avancées sont limitées à la famille de modèles Qwen. Reproduire ces résultats sur des familles de modèles comme Llama est complexe en raison du manque de transparence dans leurs pipelines de pré-entraînement. Des études non conventionnelles ont révélé que le prompt en une seule étape améliore le raisonnement dans Qwen mais offre peu d'avantages pour Llama. Des projets comme OpenWebMath, MathPile, InfiMM-Web-Math et FineMath ont progressé dans la création de corpus de pré-entraînement de haute qualité, mais restent limités en taille à moins de 100 milliards de jetons. Exploration des Stratégies de Pré-Entraînement Intermédiaires Les chercheurs de l'Université Jiao Tong de Shanghai se penchent sur l'impact des stratégies de pré-entraînement intermédiaires sur la dynamique du RL, en mettant l'accent sur les modèles Qwen et Llama. Leurs conclusions sont multiples : 1. Les corpus mathématiques de haute qualité, comme MegaMath-Web-Pro, améliorent à la fois le modèle de base et les résultats du RL. 2. L'utilisation de données sous forme de questions-réponses (QA), en particulier celles avec un long raisonnement par chaîne de pensée, renforce encore les performances du RL. 3. Le long CoT introduit de la verbosité et de l'instabilité dans l'entraînement RL. 4. L'application de l'échelle durant le pré-entraînement intermédiaire entraîne de meilleures performances en aval RL. Les chercheurs ont ainsi mis en place une stratégie de pré-entraînement intermédiaire en deux étapes appelée Stable-then-Decay. Cette méthode consiste d'abord à entraîner les modèles de base sur 200 milliards de jetons, puis à les faire évader sur 20 milliards de jetons supplémentaires à travers trois branches focalisées sur le CoT, aboutissant à des modèles OctoThinker montrant une forte compatibilité avec le RL. Configuration de RL et Évaluation des Bénéfices Pour l'entraînement RL, les chercheurs ont utilisé le dataset MATH8K. La configuration inclut une taille de batch globale de 128, 16 réponses par requête et une taille de mini-batch PPO de 64. Les expérimentations ont été menées sur les modèles Llama-3.2-3B-Base et Qwen2.5-3B-Base. L'évaluation s'est faite à l'aide de prompts "few-shot" pour les modèles linguistiques de base et de prompts "zero-shot" pour les modèles ajustés par RL, sur des tâches indicatives comme GSM8K, MATH500, OlympiadBench et AMC23. Au cours de l'entraînement RL, les modèles Qwen ont montré une augmentation de la longueur des réponses, restant raisonnable tout au long du processus, tandis que Llama affichait un comportement anormal, avec une longueur moyenne des réponses s'élevant jusqu'à 4,096 jetons. Les résultats d'évaluation révèlent que le modèle Qwen2.5-3B-RL atteint des améliorations significatives sur toutes ces benchmarks, mientras que Llama-3.2-3B ne montre que des gains marginaux. Performances Supérieures d'OctoThinker dans la Compatibilité RL Chaque branche de l'OctoThinker a montré des améliorations de 10% à 20% par rapport au modèle de base original Llama, ainsi que des gains constants par rapport au modèle stabilisé à différents niveaux de taille, évalué sur 13 benchmarks mathématiques. Les familles OctoThinker-Zero ont également révélé des comportements de pensée diversifiés durant l'échelle RL, avec des performances remarquables du variant OctoThinker-Long. Lors d'une comparaison entre trois modèles de base de 3 milliards de paramètres pendant le RL, le variant OctoThinker-Long-3B a surpassé le modèle original Llama-3.2-3B et a atteint une performance comparable à celle du modèle Qwen2.5-3B, reconnu pour ses fortes capacités de raisonnement et son pré-entraînement extensif. Conclusion et Travaux Futurs : Vers des Modèles de Base Prêts pour RL Cette recherche explore les raisons pour lesquelles des modèles de base comme Llama et Qwen montrent des comportements divergents lors de l'utilisation du RL pour le raisonnement, soulignant le rôle crucial du pré-entraînement intermédiaire dans la scalabilité du RL. La stratégie de pré-entraînement intermédiaire en deux étapes Stable-then-Decay transforme Llama en un modèle de base plus adapté au RL, donnant naissance à des modèles OctoThinker. Les lignes de recherche futures incluent une meilleure compréhension de ces phénomènes pour élaborer des approches encore plus performantes. Informations Complémentaires Évaluation professionnelle de l'industrie : Les recherches sur les modèles linguistiques et l'apprentissage par renforcement continuent de faire l'objet d'un intérêt majeur au sein de l'industrie technologique. L'introduction d'OctoThinker marque une avancée significative dans le domaine, offrant une solution viable aux défis de scalabilité du RL sur des modèles de base variés. Profil de l'entreprise : L'Université Jiao Tong de Shanghai, connue pour son expertise en sciences de l'information et en intelligence artificielle, continue de mener des recherches pionnières dans le développement de modèles d'apprentissage profond. Le projet OctoThinker est le fruit de collaborations interdisciplinaires et souligne l'engagement de l'institution dans la promotion de l'innovation technologique. Liens utiles : - Papier : [Lien vers le papier de recherche] - Page Hugging Face : [Lien vers la page Hugging Face] - Page GitHub : [Lien vers la page GitHub] Pour rester informé de ce genre de travaux, suivez-nous sur Twitter et joignez-vous à notre communauté sur Reddit dédiée à la machine learning. Abonnez-vous également à notre newsletter pour recevoir les dernières mises à jour.

Related Links