HyperAI
Command Palette
Search for a command to run...
ChineseWebText 中文网络文本数据集
**ChineseWebText 是目前最新、最大的中文数据集,包含 1.42 TB 的数据。**每个文本都被分配了一个质量分数,方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集,包含 600 GB 的中文文本,质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。
ChineseWebText.torrent
做种 0正在下载 1已完成 234总下载量 532
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。