ChineseWebText Chinesischer Webtext-Datensatz
ChineseWebText ist der neueste und größte chinesische Datensatz und enthält 1,42 TB Daten.Jedem Text wird ein Qualitätsfaktor zugewiesen, wodurch es für Forscher großer Sprachmodelle einfacher wird, Daten anhand neuer Qualitätsschwellenwerte auszuwählen. Hier wird auch eine sauberere Teilmenge mit 600 GB chinesischem Text in besserer Qualität als 90% veröffentlicht. Dieses Verzeichnis enthält den ChineseWebText-Datensatz und die EvalWeb-Toolchain zur Verarbeitung von CommonCrawl-Daten.
ChinesischerWebText.torrent
Seeding 1Herunterladen 0Abgeschlossen 167Gesamtdownloads 380