HyperAI

Ensemble De Données De Liens Wikipédia WikiLinks

Date

il y a 2 ans

Taille

1.71 GB

Organisation

URL de publication

code.google.com

Licence

CC BY-NC-SA 3.0

特色图像

WikiLinks est un ensemble de données qui permet de rechercher le texte intégral de Wikipédia par paragraphe, par phrase ou par partie du paragraphe lui-même. L'ensemble de données traite chaque page de Wikipédia comme représentant une entité (ou un concept ou une idée) en fonction des hyperliens trouvés à partir de recherches sur le Web et utilise un texte d'ancrage comme mentions, ce qui peut finalement fournir des données étiquetées à grande échelle sans nécessiter de manipulation humaine.

L'ensemble de données comprend :

  • Près de 1,9 milliard de mots provenant de plus de 4 millions d'articles
  • 40 millions de références à 3 millions d'entités
  • 10 fichiers texte compressés data-0000[0-9]-of-00010.gz.

Cet ensemble de données a été créé le 29 septembre 2012

WikiLinks.torrent
Partage 2Téléchargement 1Terminés 570Téléchargements totaux 589
  • WikiLinks/
    • README.md
      1.33 KB
    • README.txt
      2.67 KB
      • data/
        • README.txt
          6.86 KB
        • data-00000-of-00010.gz
          175.01 MB
        • data-00001-of-00010.gz
          350.24 MB
        • data-00002-of-00010.gz
          525.45 MB
        • data-00003-of-00010.gz
          700.97 MB
        • data-00004-of-00010.gz
          875.93 MB
        • data-00005-of-00010.gz
          1.03 GB
        • data-00006-of-00010.gz
          1.2 GB
        • data-00007-of-00010.gz
          1.37 GB
        • data-00008-of-00010.gz
          1.54 GB
        • data-00009-of-00010.gz
          1.71 GB