Command Palette
Search for a command to run...
WikiLinks ウィキペディア リンク データ セット
日付
サイズ
公開URL
Paper URL
ライセンス
CC BY-NC-SA 3.0

WikiLinks Wikipedia リンク データセットは、Wikipedia の全文を段落、語句、または段落自体の一部ごとに検索するデータセットです。このデータセットは、Web 検索で見つかったハイパーリンクに基づいて、アンカー テキストを言及として使用して、Wikipedia の各ページをエンティティ (または概念やアイデア) を表すものとして扱います。これにより、最終的には人間の介入を必要とせずに大規模なデータを提供できます。
データセットには次のものが含まれます。
- 400 万以上の記事から約 19 億語を収録
- 300 万のエンティティについて 4,000 万件の言及
- 10 個の圧縮テキスト ファイル data-0000[0-9]-of-00010.gz。
このデータセットは 2012 年 9 月 29 日に作成されました