HyperAI超神経

ウィキペディア ウィキペディア データセット

日付

1年前

サイズ

57.98 GB

組織

ライセンス

CC BY-NC-SA 3.0

データセットの概要

Wikipedia データセットには、すべての言語のクリーンアップされた記事が含まれています。

このデータセットは次のもので構成されています ウィキペディアのダンプ  言語ごとに 1 つのサブセットで構成され、各サブセットが列分割に結合します。

各例には、完全な Wikipedia 記事のコンテンツが含まれており、マークアップや不要な部分 (「参考文献」など) が削除されています。

データの視覚化

クリック ノミック アトラス  20231101.en で分割された 640 万サンプルを視覚化したマップ。

ライセンス情報

著作権ライセンス情報:https://dumps.wikimedia.org/legal.html

すべてのオリジナルのテキストコンテンツは以下に基づいています GNU フリー ドキュメント ライセンス (GFDL) そしてクリエイティブ・コモンズ表示 - 継承 3.0 ライセンス認可。一部のテキストは、クリエイティブ コモンズ ライセンスの下でのみ利用できる場合があります。利用規約。一部の著者によって書かれたテキストは、追加のライセンスの下で公開されるか、パブリック ドメインになる場合があります。

wikipedia.torrent
シーディング 1ダウンロード中 2ダウンロード完了 178総ダウンロード数 449
  • wikipedia/
    • README.md
      1.54 KB
    • README.txt
      3.09 KB
      • data/
        • wikipedia.zip
          57.98 GB