Command Palette
Search for a command to run...
ChineseWebText Chinesischer Webtext-Datensatz
ChineseWebText ist der neueste und größte chinesische Datensatz und enthält 1,42 TB Daten.Jedem Text wird ein Qualitätsfaktor zugewiesen, wodurch es für Forscher großer Sprachmodelle einfacher wird, Daten anhand neuer Qualitätsschwellenwerte auszuwählen. Hier wird auch eine sauberere Teilmenge mit 600 GB chinesischem Text in besserer Qualität als 90% veröffentlicht. Dieses Verzeichnis enthält den ChineseWebText-Datensatz und die EvalWeb-Toolchain zur Verarbeitung von CommonCrawl-Daten.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.