WikiLinks ウィキペディア リンク データ セット

WikiLinks Wikipedia リンク データセットは、Wikipedia の全文を段落、語句、または段落自体の一部ごとに検索するデータセットです。このデータセットは、Web 検索で見つかったハイパーリンクに基づいて、アンカー テキストを言及として使用して、Wikipedia の各ページをエンティティ (または概念やアイデア) を表すものとして扱います。これにより、最終的には人間の介入を必要とせずに大規模なデータを提供できます。
データセットには次のものが含まれます。
- 400 万以上の記事から約 19 億語を収録
- 300 万のエンティティについて 4,000 万件の言及
- 10 個の圧縮テキスト ファイル data-0000[0-9]-of-00010.gz。
このデータセットは 2012 年 9 月 29 日に作成されました
WikiLinks.torrent
シーディング 1ダウンロード中 1ダウンロード完了 570総ダウンロード数 589