WikiLinks 维基百科链接数据集

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体 (或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。
数据集包括:
- 来自 400 多万篇文章的近 19 亿个单词
- 300 万个实体上的 4000 万个提法
- 10 个压缩文本文件 data-0000[0-9]-of-00010.gz.
此数据集创建于 2012 年 9 月 29 日
WikiLinks.torrent
做种 1正在下载 1已完成 570总下载次数 589