HyperAI

Ensemble De Données Mathématiques Proof-Pile-2

Date

il y a un an

Taille

47.57 GB

Organisation

Université de Princeton

URL de publication

huggingface.co

特色图像

Proof-Pile-2 est un ensemble de données tokenisé de 55 milliards de documents mathématiques et scientifiques. Un mélange d'articles scientifiques, de contenu Web lié aux mathématiques et de code mathématique mis à jour en avril 2023 (à l'exclusion d'un sous-ensemble spécifique d'étapes de preuve Lean). Cet ensemble de données a été créé pour former les modèles Llemma 7B et Llemma 34B.

Il se compose de trois sous-ensembles :

  • arxiv (29B jetons) : sous-ensemble ArXiv de RedPajama
  • open-web-math (15B jetons) :OpenWebMath Un ensemble de données contenant de nombreux textes mathématiques de haute qualité provenant d'Internet.
  • algebraic-stack (11B jetons) : Un nouvel ensemble de données de codes mathématiques couvrant le calcul numérique, l'algèbre informatique et les mathématiques formelles.
proof-pile-2.torrent
Partage 1Téléchargement 2Terminés 82Téléchargements totaux 151
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB