Ensemble De Données Mathématiques Proof-Pile-2
Date
il y a un an
Taille
47.57 GB
URL de publication
Catégories

Proof-Pile-2 est un ensemble de données tokenisé de 55 milliards de documents mathématiques et scientifiques. Un mélange d'articles scientifiques, de contenu Web lié aux mathématiques et de code mathématique mis à jour en avril 2023 (à l'exclusion d'un sous-ensemble spécifique d'étapes de preuve Lean). Cet ensemble de données a été créé pour former les modèles Llemma 7B et Llemma 34B.
Il se compose de trois sous-ensembles :
arxiv
(29B jetons) : sous-ensemble ArXiv de RedPajamaopen-web-math
(15B jetons) :OpenWebMath Un ensemble de données contenant de nombreux textes mathématiques de haute qualité provenant d'Internet.algebraic-stack
(11B jetons) : Un nouvel ensemble de données de codes mathématiques couvrant le calcul numérique, l'algèbre informatique et les mathématiques formelles.
proof-pile-2.torrent
Partage 1Téléchargement 2Terminés 82Téléchargements totaux 151