ChineseWebText Chinesischer Webtext-Datensatz
Datum
vor einem Jahr
Größe
398.86 GB
Veröffentlichungs-URL
Tags
Kategorien
ChineseWebText ist der neueste und größte chinesische Datensatz und enthält 1,42 TB Daten.Jedem Text wird ein Qualitätsfaktor zugewiesen, wodurch es für Forscher großer Sprachmodelle einfacher wird, Daten anhand neuer Qualitätsschwellenwerte auszuwählen. Hier wird auch eine sauberere Teilmenge mit 600 GB chinesischem Text in besserer Qualität als 90% veröffentlicht. Dieses Verzeichnis enthält den ChineseWebText-Datensatz und die EvalWeb-Toolchain zur Verarbeitung von CommonCrawl-Daten.
ChineseWebText.torrent
Seeding 1Herunterladen 1Abgeschlossen 113Gesamtdownloads 287