Ensemble De Données D'entraînement Aux Problèmes De Programmation Mathématique Eurus-2-RL-Data
Date
Taille
URL de publication
Catégories
Eurus-2-RL-Data est un ensemble de données de haute qualité spécifiquement destiné à la formation par renforcement, principalement utilisé pour résoudre des problèmes mathématiques et de programmation. Le blog concerné est "Renforcement des processus par des récompenses implicites".
Les problèmes mathématiques de cet ensemble de données sont en partie dérivés de NuminaMath-CoT, couvrant un large éventail de sujets allant des mathématiques du lycée chinois à l'Olympiade internationale de mathématiques. Les questions de programmation proviennent de plusieurs plateformes, notamment APPS, CodeContests, TACO et Codeforces, ciblant principalement les questions de niveau compétition de programmation. Afin de garantir la qualité des données, les données Eurus-2-RL ont été rigoureusement nettoyées et filtrées. Les questions mathématiques ont été examinées à l’aide de modèles de raisonnement avancés (par exemple, Qwen-QwQ) pour éliminer les questions insolubles, incompatibles ou mal répondues, et les questions à choix multiples ont été converties en questions ouvertes. Les questions de programmation suppriment principalement le contenu répétitif. Après ces traitements,L'ensemble de données contient finalement environ 455 000 problèmes mathématiques et 27 000 problèmes de programmation. Les principaux domaines d'application d'Eurus-2-RL-Data sont l'apprentissage par renforcement et les compétitions de programmation. Il fournit une plate-forme de formation efficace pour le modèle, l'aidant à apprendre plus en profondeur et à optimiser la résolution de problèmes complexes.