@inproceedings{ wang2024mathpile, title={MathPile: A Billion-Token-Scale Pretraining Corpus for Math}, author={Zengzhi Wang and Xuefeng Li and Rui Xia and Pengfei Liu}, booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2024}, url={https://openreview.net/forum?id=RSvhU69sbG} }

Date

il y a 2 ans

Organisation

URL du document

arxiv.org

Licence

Other

Balises

Mathématiques

MathPile est un corpus diversifié et de haute qualité axé sur les mathématiques contenant environ 9,5 milliards de jetons. Cet ensemble de données est significativement différent des ensembles de données précédents dans les caractéristiques suivantes :

Centré sur les mathématiques：MathPile se concentre sur le domaine des mathématiques, contrairement aux corpus qui se concentrent sur des domaines généraux tels que Pile et RedPajama, ou ceux qui se concentrent sur plusieurs langages tels que ROOTS et The Stack. Bien qu’il existe des corpus centrés sur les mathématiques, ils sont soit à source fermée, comme Minerva de Google et MathMix d’OpenAI, soit manquent de diversité, comme ProofPile et OpenWebMath.
Diversité:MathPile collecte à partir d'un large éventail de sources :**Manuels (y compris les notes de cours), arXiv, Wikipédia, ProofWiki, StackExchange et pages Web.**Il contient du contenu mathématique adapté aux niveaux K-12, collégial, supérieur et aux compétitions de mathématiques.En particulier, l’équipe de recherche a publié une vaste collection de manuels de haute qualité (environ 0,19 milliard de jetons).
haute qualité:L'équipe de recherche adhère au principe du moins c'est plus et croit fermement à la supériorité de la qualité des données sur la quantité, même au stade de la pré-formation. Les efforts méticuleux de collecte et de traitement des données de l’équipe de recherche comprenaient une suite sophistiquée de prétraitement, de présélection, de nettoyage, de filtrage et de déduplication, garantissant la haute qualité du corpus de l’équipe de recherche.
Documentation des données:Pour améliorer la transparence, l’équipe de recherche a largement documenté MathPile. Cela comprend un tableau de données (voir le tableau 5 dans le document) et des annotations de qualité pour les fichiers sources Web, tels que les scores d'identification de la langue et les ratios jeton/mot. Cela offre aux utilisateurs la flexibilité d’adapter les données à leurs besoins.L'équipe de recherche a également effectué une détection de contamination des données pour éliminer les doublons des ensembles de tests de référence tels que MATH et MMLU-STEM.

Citation

@inproceedings{
wang2024mathpile,
title={MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Zengzhi Wang and Xuefeng Li and Rui Xia and Pengfei Liu},
booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2024},
url={https://openreview.net/forum?id=RSvhU69sbG}
}

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Corpus Pré-entraîné De Raisonnement Mathématique MathPile

Citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Corpus Pré-entraîné De Raisonnement Mathématique MathPile

Citation

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Corpus Pré-entraîné De Raisonnement Mathématique MathPile

Citation

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés