ChineseWebText 中国語 Web テキスト データ セット

日期

1 年前

大小

398.86 GB

发布地址

huggingface.co

ChineseWebText は現在最新かつ最大の中国語データ セットで、1.42 TB のデータが含まれています。各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データ セットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。

ChineseWebText.torrent

做种 2

下载中 0

已完成 55

总下载 224

  • ChineseWebText/
    • README.md
      1.16 KB
    • README.txt
      2.32 KB
      • data/
        • C-webtexet.zip
          398.86 GB