Command Palette
Search for a command to run...
Ensemble De Données Mathématiques Proof-Pile-2
Date
Size

Proof-Pile-2 est un ensemble de données tokenisé de 55 milliards de documents mathématiques et scientifiques. Un mélange d'articles scientifiques, de contenu Web lié aux mathématiques et de code mathématique mis à jour en avril 2023 (à l'exclusion d'un sous-ensemble spécifique d'étapes de preuve Lean). Cet ensemble de données a été créé pour former les modèles Llemma 7B et Llemma 34B.
Il se compose de trois sous-ensembles :
arxiv(29B jetons) : sous-ensemble ArXiv de RedPajamaopen-web-math(15B jetons) :OpenWebMath Un ensemble de données contenant de nombreux textes mathématiques de haute qualité provenant d'Internet.algebraic-stack(11B jetons) : Un nouvel ensemble de données de codes mathématiques couvrant le calcul numérique, l'algèbre informatique et les mathématiques formelles.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.