HyperAI
Command Palette
Search for a command to run...
ChineseWebText 中国語 Web テキスト データ セット
ChineseWebText は現在最新かつ最大の中国語データ セットで、1.42 TB のデータが含まれています。各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データ セットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。
ChineseWebText.torrent
シーディング 1ダウンロード中 0完了 222総ダウンロード数 498
このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。