HyperAI

OpenWebMath Trainingsdatensatz Für Offene Webmathematik

Datum

vor einem Jahr

Größe

44.21 GB

Organisation

Universität Cambridge
Universität von Toronto

Veröffentlichungs-URL

huggingface.co

OpenWebMath ist ein Datensatz, der hochwertige mathematische Texte aus den meisten Teilen des Internets enthält. Es wird aus mehr als 200 Milliarden HTML-Dateien auf Common Crawl gefiltert und extrahiert, was zu einem Satz von 6,3 Millionen Dokumenten mit insgesamt 14,7 Milliarden Token führt. OpenWebMath ist für das Vortraining konzipiert undFeinabstimmungGroße Sprachmodelle.

OpenWebMath.torrent
Seeding 2Herunterladen 1Abgeschlossen 157Gesamtdownloads 212
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB