日期

2 年前

大小

398.86 GB

标签

**ChineseWebText 是目前最新、最大的中文数据集，包含 1.42 TB 的数据。**每个文本都被分配了一个质量分数，方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集，包含 600 GB 的中文文本，质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。

Citation

@misc{chen2023chinesewebtext, title={ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with Effective Evaluation Model}, author={Jianghao Chen and Pu Jian and Tengxiao Xi and Dongyi Yi and Qianlong Du and Chenglin Ding and Guibo Zhu and Chengqing Zong and Jinqiao Wang and Jiajun Zhang}, year={2023}, eprint={2311.01149}, archivePrefix={arXiv}, primaryClass={cs.CL} }

ChineseWebText.torrent

做种 1正在下载 0已完成 293总下载量 581