WikiLinks 维基百科链接数据集

日期

10 个月前

大小

1.71 GB

机构

发布地址

code.google.com

许可协议

CC BY-NC-SA 3.0

特色图像

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。

数据集包括:

 • 来自 400 多万篇文章的近 19 亿个单词
 • 300 万个实体上的 4000 万个提法
 • 10 个压缩文本文件 data-0000[0-9]-of-00010.gz.

此数据集创建于 2012 年 9 月 29 日

WikiLinks.torrent

做种 2

下载中 0

已完成 331

总下载 372

 • WikiLinks/
  • README.md
   1.33 KB
  • README.txt
   2.67 KB
   • data/
    • README.txt
     6.86 KB
    • data-00000-of-00010.gz
     175.01 MB
    • data-00001-of-00010.gz
     350.24 MB
    • data-00002-of-00010.gz
     525.45 MB
    • data-00003-of-00010.gz
     700.97 MB
    • data-00004-of-00010.gz
     875.93 MB
    • data-00005-of-00010.gz
     1.03 GB
    • data-00006-of-00010.gz
     1.2 GB
    • data-00007-of-00010.gz
     1.37 GB
    • data-00008-of-00010.gz
     1.54 GB
    • data-00009-of-00010.gz
     1.71 GB