日付

2年前

サイズ

398.86 GB

タグ

**ChineseWebText は現在最新かつ最大の中国語データセットで、1.42 TB のデータが含まれています。**各テキストには品質スコアが割り当てられているため、大規模な言語モデルの研究者は新しい品質しきい値に基づいてデータを選択できます。ここでは、90% よりも高品質の 600 GB の中国語テキストを含む、よりクリーンなサブセットもリリースされています。このディレクトリには、 ChineseWebText データセットと CommonCrawl データを処理するための EvalWeb ツールチェーンが含まれています。

引用

@misc{chen2023chinesewebtext, title={ChineseWebText: 効果的な評価モデルによる大規模で高品質な中国語ウェブテキストの抽出}, 著者={Jianghao Chen、Pu Jian、Tengxiao Xi、Dongyi Yi、Qianlong Du、Chenglin Ding、Guibo Zhu、Chengqing Zong、Jinqiao Wang、Jiajun Zhang}、年={2023}、 eprint={2311.01149}、 archivePrefix={arXiv}、 primaryClass={cs.CL} }

ChineseWebText.torrent

シーディング 1ダウンロード中 0完了 293総ダウンロード数 581