ChineseWebText 中文网络文本数据集

日期

1 年前

大小

398.86 GB

发布地址

huggingface.co

标签

ChineseWebText 是目前最新、最大的中文数据集,包含 1.42 TB 的数据。每个文本都被分配了一个质量分数,方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集,包含 600 GB 的中文文本,质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。

ChineseWebText.torrent

做种 2

下载中 0

已完成 54

总下载 217

  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB