Wikipedia 维基百科数据集

日期

10 个月前

大小

57.98 GB

机构

发布地址

huggingface.co

许可协议

CC BY-NC-SA 3.0

数据集摘要

维基百科数据集包含所有语言的已清理文章。

该数据集由 Wikipedia dumps  构建,每种语言有一个子集,每个子集连接一列拆分。

每个示例都包含一篇完整的维基百科文章的内容,并清理以删除标记和不需要的部分(如「参考」,等)。

数据可视化

点击 Nomic Atlas  地图,可视化 20231101.en 拆分的 640 万个样本。

许可信息

版权许可信息:https://dumps.wikimedia.org/legal.html

所有原始文本内容均根据 GNU 自由文档许可证 (GFDL)知识共享署名-相同方式共享 3.0 许可证授权。某些文本可能仅在知识共享许可下可用;详情请参阅其使用条款。一些作者撰写的文本可能会以额外的许可证发布或进入公共领域。

wikipedia.torrent

做种 2

下载中 1

已完成 109

总下载 372

  • wikipedia/
    • README.md
      1.54 KB
    • README.txt
      3.09 KB
      • data/
        • wikipedia.zip
          57.98 GB