Ensemble De Données De Problèmes De Compétition Mathématique NuminaMath-CoT
Date
Taille
URL de publication
Licence
CC BY-NC-SA 3.0
Catégories
* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
Cet ensemble de données a été proposé par AI-MO en 2024 et contient plus de 860 000 paires de questions-réponses de compétition mathématique, chacune utilisant le modèle de raisonnement de la chaîne de pensée (CoT). Les sources de l'ensemble de données comprennent des exercices de mathématiques de lycée chinois, des questions de compétition d'Olympiade mathématique américaine et internationale. Les données ont été principalement collectées à partir de documents d’examen PDF en ligne et de forums de discussion sur les mathématiques. Les étapes de traitement comprennent (a) l'OCR à partir du PDF original, (b) la segmentation en paires problème-solution, (c) la traduction en anglais, (d) le remodelage pour générer le format de raisonnement CoT et (e) le format de réponse finale.