ウィキペディア ウィキペディア データセット

日期

1 年前

大小

57.98 GB

机构

发布地址

huggingface.co

许可协议

CC BY-NC-SA 3.0

データセットの概要

Wikipedia データセットには、すべての言語のクリーンアップされた記事が含まれています。

このデータセットは次のもので構成されています ウィキペディアのダンプ  言語ごとに 1 つのサブセットで構成され、各サブセットが列分割に結合します。

各例には、完全な Wikipedia 記事のコンテンツが含まれており、マークアップや不要な部分 (「参考文献」など) が削除されています。

データの視覚化

クリック ノミック アトラス  20231101.en で分割された 640 万サンプルを視覚化したマップ。

ライセンス情報

著作権ライセンス情報:https://dumps.wikimedia.org/legal.html

すべてのオリジナルのテキストコンテンツは以下に基づいています GNU フリー ドキュメント ライセンス (GFDL) そしてクリエイティブ・コモンズ表示 - 継承 3.0 ライセンス認可。一部のテキストは、クリエイティブ コモンズ ライセンスの下でのみ利用できる場合があります。利用規約。一部の著者によって書かれたテキストは、追加のライセンスの下で公開されるか、パブリック ドメインになる場合があります。

wikipedia.torrent

做种 1

下载中 1

已完成 118

总下载 381

  • wikipedia/
    • README.md
      1.54 KB
    • README.txt
      3.09 KB
      • data/
        • wikipedia.zip
          57.98 GB