ChineseWebText は現在最新かつ最大の中国語データ セットで、1.42 TB のデータが含まれています。各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データ セットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。
做种 2
下载中 0
已完成 55
总下载 224