HyperAIHyperAI

ChineseWebText Chinesischer Webtext-Datensatz

Datum

vor 2 Jahren

Größe

398.86 GB

Veröffentlichungs-URL

huggingface.co

ChineseWebText ist der neueste und größte chinesische Datensatz und enthält 1,42 TB Daten.Jedem Text wird ein Qualitätsfaktor zugewiesen, wodurch es für Forscher großer Sprachmodelle einfacher wird, Daten anhand neuer Qualitätsschwellenwerte auszuwählen. Hier wird auch eine sauberere Teilmenge mit 600 GB chinesischem Text in besserer Qualität als 90% veröffentlicht. Dieses Verzeichnis enthält den ChineseWebText-Datensatz und die EvalWeb-Toolchain zur Verarbeitung von CommonCrawl-Daten.

ChinesischerWebText.torrent
Seeding 1Herunterladen 0Abgeschlossen 167Gesamtdownloads 380
  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB
ChineseWebText Chinesischer Webtext-Datensatz | Datensätze | HyperAI