维基百科数据集包含所有语言的已清理文章。
该数据集由 Wikipedia dumps 构建,每种语言有一个子集,每个子集连接一列拆分。
每个示例都包含一篇完整的维基百科文章的内容,并清理以删除标记和不需要的部分(如「参考」,等)。
点击 Nomic Atlas 地图,可视化 20231101.en 拆分的 640 万个样本。
版权许可信息:https://dumps.wikimedia.org/legal.html
所有原始文本内容均根据 GNU 自由文档许可证 (GFDL) 和知识共享署名-相同方式共享 3.0 许可证授权。某些文本可能仅在知识共享许可下可用;详情请参阅其使用条款。一些作者撰写的文本可能会以额外的许可证发布或进入公共领域。
做种 2
下载中 1
已完成 109
总下载 372