HyperAI超神経

WikiLinks ウィキペディア リンク データ セット

日付

2年前

サイズ

1.71 GB

組織

ライセンス

CC BY-NC-SA 3.0

特色图像

WikiLinks Wikipedia リンク データセットは、Wikipedia の全文を段落、語句、または段落自体の一部ごとに検索するデータセットです。このデータセットは、Web 検索で見つかったハイパーリンクに基づいて、アンカー テキストを言及として使用して、Wikipedia の各ページをエンティティ (または概念やアイデア) を表すものとして扱います。これにより、最終的には人間の介入を必要とせずに大規模なデータを提供できます。

データセットには次のものが含まれます。

  • 400 万以上の記事から約 19 億語を収録
  • 300 万のエンティティについて 4,000 万件の言及
  • 10 個の圧縮テキスト ファイル data-0000[0-9]-of-00010.gz。

このデータセットは 2012 年 9 月 29 日に作成されました

WikiLinks.torrent
シーディング 1ダウンロード中 1ダウンロード完了 570総ダウンロード数 589
  • WikiLinks/
    • README.md
      1.33 KB
    • README.txt
      2.67 KB
      • data/
        • README.txt
          6.86 KB
        • data-00000-of-00010.gz
          175.01 MB
        • data-00001-of-00010.gz
          350.24 MB
        • data-00002-of-00010.gz
          525.45 MB
        • data-00003-of-00010.gz
          700.97 MB
        • data-00004-of-00010.gz
          875.93 MB
        • data-00005-of-00010.gz
          1.03 GB
        • data-00006-of-00010.gz
          1.2 GB
        • data-00007-of-00010.gz
          1.37 GB
        • data-00008-of-00010.gz
          1.54 GB
        • data-00009-of-00010.gz
          1.71 GB