HyperAI

OpenWebMath Ensemble De Données De Formation En Mathématiques Sur Le Web Ouvert

Date

il y a un an

Taille

44.21 GB

Organisation

Université de Cambridge
Université de Toronto

URL de publication

huggingface.co

OpenWebMath est un ensemble de données contenant des textes mathématiques de haute qualité provenant de la majeure partie d'Internet. Il est filtré et extrait de plus de 200 milliards de fichiers HTML sur Common Crawl, ce qui donne un ensemble de 6,3 millions de documents contenant un total de 14,7 milliards de jetons. OpenWebMath est conçu pour être utilisé pour la pré-formation etRéglage finGrands modèles de langage.

OpenWebMath.torrent
Partage 2Téléchargement 1Terminés 157Téléchargements totaux 212
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB