HyperAIHyperAI

OpenWebMath Trainingsdatensatz Für Offene Webmathematik

Datum

vor einem Jahr

Größe

44.21 GB

Organisation

Universität Cambridge
Universität von Toronto

Veröffentlichungs-URL

huggingface.co

OpenWebMath ist ein Datensatz, der hochwertige mathematische Texte aus den meisten Teilen des Internets enthält. Es wird aus mehr als 200 Milliarden HTML-Dateien auf Common Crawl gefiltert und extrahiert, was zu einem Satz von 6,3 Millionen Dokumenten mit insgesamt 14,7 Milliarden Token führt. OpenWebMath ist für das Vortraining konzipiert undFeinabstimmungGroße Sprachmodelle.

OpenWebMath.torrent
Seeding 1Herunterladen 0Abgeschlossen 203Gesamtdownloads 292
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB
OpenWebMath Trainingsdatensatz Für Offene Webmathematik | Datensätze | HyperAI