Ensemble De Données De Liens Wikipédia WikiLinks
Date
il y a 2 ans
Taille
1.71 GB
URL de publication
Licence
CC BY-NC-SA 3.0

WikiLinks est un ensemble de données qui permet de rechercher le texte intégral de Wikipédia par paragraphe, par phrase ou par partie du paragraphe lui-même. L'ensemble de données traite chaque page de Wikipédia comme représentant une entité (ou un concept ou une idée) en fonction des hyperliens trouvés à partir de recherches sur le Web et utilise un texte d'ancrage comme mentions, ce qui peut finalement fournir des données étiquetées à grande échelle sans nécessiter de manipulation humaine.
L'ensemble de données comprend :
- Près de 1,9 milliard de mots provenant de plus de 4 millions d'articles
- 40 millions de références à 3 millions d'entités
- 10 fichiers texte compressés data-0000[0-9]-of-00010.gz.
Cet ensemble de données a été créé le 29 septembre 2012
WikiLinks.torrent
Partage 2Téléchargement 1Terminés 570Téléchargements totaux 589