ChineseWebText 中国語 Web テキスト データ セット
ChineseWebText は現在最新かつ最大の中国語データ セットで、1.42 TB のデータが含まれています。各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データ セットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。
ChineseWebText.torrent
シーディング 2ダウンロード中 1ダウンロード完了 103総ダウンロード数 279