OpenWebMath Trainingsdatensatz Für Offene Webmathematik
Datum
vor einem Jahr
Größe
44.21 GB
Veröffentlichungs-URL
Kategorien
OpenWebMath ist ein Datensatz, der hochwertige mathematische Texte aus den meisten Teilen des Internets enthält. Es wird aus mehr als 200 Milliarden HTML-Dateien auf Common Crawl gefiltert und extrahiert, was zu einem Satz von 6,3 Millionen Dokumenten mit insgesamt 14,7 Milliarden Token führt. OpenWebMath ist für das Vortraining konzipiert undFeinabstimmungGroße Sprachmodelle.
OpenWebMath.torrent
Seeding 2Herunterladen 1Abgeschlossen 157Gesamtdownloads 212