Wikipedia データセットには、すべての言語のクリーンアップされた記事が含まれています。
このデータセットは次のもので構成されています ウィキペディアのダンプ 言語ごとに 1 つのサブセットで構成され、各サブセットが列分割に結合します。
各例には、完全な Wikipedia 記事のコンテンツが含まれており、マークアップや不要な部分 (「参考文献」など) が削除されています。
クリック ノミック アトラス 20231101.en で分割された 640 万サンプルを視覚化したマップ。
著作権ライセンス情報:https://dumps.wikimedia.org/legal.html
すべてのオリジナルのテキストコンテンツは以下に基づいています GNU フリー ドキュメント ライセンス (GFDL) そしてクリエイティブ・コモンズ表示 - 継承 3.0 ライセンス認可。一部のテキストは、クリエイティブ コモンズ ライセンスの下でのみ利用できる場合があります。利用規約。一部の著者によって書かれたテキストは、追加のライセンスの下で公開されるか、パブリック ドメインになる場合があります。
做种 1
下载中 1
已完成 118
总下载 381