Corpus Pré-entraîné De Raisonnement Mathématique MathPile
Date
il y a un an
URL de publication
Licence
其他
Catégories
MathPile est un corpus diversifié et de haute qualité axé sur les mathématiques contenant environ 9,5 milliards de jetons. Cet ensemble de données est significativement différent des ensembles de données précédents dans les caractéristiques suivantes :
- Centré sur les mathématiques:MathPile se concentre sur le domaine des mathématiques, contrairement aux corpus qui se concentrent sur des domaines généraux tels que Pile et RedPajama, ou ceux qui se concentrent sur plusieurs langages tels que ROOTS et The Stack. Bien qu’il existe des corpus centrés sur les mathématiques, ils sont soit à source fermée, comme Minerva de Google et MathMix d’OpenAI, soit manquent de diversité, comme ProofPile et OpenWebMath.
- Diversité:MathPile collecte à partir d'un large éventail de sources :Manuels (y compris les notes de cours), arXiv, Wikipédia, ProofWiki, StackExchange et pages Web.Il contient du contenu mathématique adapté aux niveaux K-12, collégial, supérieur et aux compétitions de mathématiques.En particulier, l’équipe de recherche a publié une vaste collection de manuels de haute qualité (environ 0,19 milliard de jetons).
- haute qualité:L'équipe de recherche adhère au principe du moins c'est plus et croit fermement à la supériorité de la qualité des données sur la quantité, même au stade de la pré-formation. Les efforts méticuleux de collecte et de traitement des données de l’équipe de recherche comprenaient une suite sophistiquée de prétraitement, de présélection, de nettoyage, de filtrage et de déduplication, garantissant la haute qualité du corpus de l’équipe de recherche.
- Documentation des données:Pour améliorer la transparence, l’équipe de recherche a largement documenté MathPile. Cela comprend un tableau de données (voir le tableau 5 dans le document) et des annotations de qualité pour les fichiers sources Web, tels que les scores d'identification de la langue et les ratios jeton/mot. Cela offre aux utilisateurs la flexibilité d’adapter les données à leurs besoins.L'équipe de recherche a également effectué une détection de contamination des données pour éliminer les doublons des ensembles de tests de référence tels que MATH et MMLU-STEM.