HyperAIHyperAI

Command Palette

Search for a command to run...

Corpus Pré-entraîné De Raisonnement Mathématique MathPile

Date

il y a 2 ans

Organisation

Université Jiao Tong de Shanghai

URL de l'article

arxiv.org

Licence

Autre

Rejoignez la communauté Discord

MathPile est un corpus diversifié et de haute qualité axé sur les mathématiques contenant environ 9,5 milliards de jetons. Cet ensemble de données est significativement différent des ensembles de données précédents dans les caractéristiques suivantes :

  • Centré sur les mathématiques:MathPile se concentre sur le domaine des mathématiques, contrairement aux corpus qui se concentrent sur des domaines généraux tels que Pile et RedPajama, ou ceux qui se concentrent sur plusieurs langages tels que ROOTS et The Stack. Bien qu’il existe des corpus centrés sur les mathématiques, ils sont soit à source fermée, comme Minerva de Google et MathMix d’OpenAI, soit manquent de diversité, comme ProofPile et OpenWebMath.
  • Diversité:MathPile collecte à partir d'un large éventail de sources :Manuels (y compris les notes de cours), arXiv, Wikipédia, ProofWiki, StackExchange et pages Web.Il contient du contenu mathématique adapté aux niveaux K-12, collégial, supérieur et aux compétitions de mathématiques.En particulier, l’équipe de recherche a publié une vaste collection de manuels de haute qualité (environ 0,19 milliard de jetons).
  • haute qualité:L'équipe de recherche adhère au principe du moins c'est plus et croit fermement à la supériorité de la qualité des données sur la quantité, même au stade de la pré-formation. Les efforts méticuleux de collecte et de traitement des données de l’équipe de recherche comprenaient une suite sophistiquée de prétraitement, de présélection, de nettoyage, de filtrage et de déduplication, garantissant la haute qualité du corpus de l’équipe de recherche.
  • Documentation des données:Pour améliorer la transparence, l’équipe de recherche a largement documenté MathPile. Cela comprend un tableau de données (voir le tableau 5 dans le document) et des annotations de qualité pour les fichiers sources Web, tels que les scores d'identification de la langue et les ratios jeton/mot. Cela offre aux utilisateurs la flexibilité d’adapter les données à leurs besoins.L'équipe de recherche a également effectué une détection de contamination des données pour éliminer les doublons des ensembles de tests de référence tels que MATH et MMLU-STEM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Corpus Pré-entraîné De Raisonnement Mathématique MathPile | Ensembles de données | HyperAI