Command Palette
Search for a command to run...
ChineseWebText Chinesischer Webtext-Datensatz
ChineseWebText ist der neueste und größte chinesische Datensatz und enthält 1,42 TB Daten.Jedem Text wird ein Qualitätsfaktor zugewiesen, wodurch es für Forscher großer Sprachmodelle einfacher wird, Daten anhand neuer Qualitätsschwellenwerte auszuwählen. Hier wird auch eine sauberere Teilmenge mit 600 GB chinesischem Text in besserer Qualität als 90% veröffentlicht. Dieses Verzeichnis enthält den ChineseWebText-Datensatz und die EvalWeb-Toolchain zur Verarbeitung von CommonCrawl-Daten.
ChineseWebText.torrent
Seeding 2Herunterladen 0Abgeschlossen 198Gesamtdownloads 417
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.
KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Hyper Newsletters
Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp