HyperAI

WikiLinks Wikipedia-Link-Datensatz

Datum

vor 2 Jahren

Größe

1.71 GB

Organisation

Veröffentlichungs-URL

code.google.com

Lizenz

CC BY-NC-SA 3.0

特色图像

WikiLinks ist ein Datensatz, der den vollständigen Text von Wikipedia nach Absätzen, Phrasen oder Teilen des Absatzes selbst durchsuchbar macht. Der Datensatz behandelt jede Seite auf Wikipedia als eine Entität (oder ein Konzept oder eine Idee), basierend auf Hyperlinks, die bei Websuchen gefunden wurden, und verwendet Ankertext als Erwähnungen, wodurch letztendlich groß angelegte gekennzeichnete Daten ohne die Notwendigkeit menschlicher Manipulation bereitgestellt werden können.

Der Datensatz umfasst:

  • Fast 1,9 Milliarden Wörter aus mehr als 4 Millionen Artikeln
  • 40 Millionen Referenzen zu 3 Millionen Entitäten
  • 10 komprimierte Textdateien data-0000[0-9]-of-00010.gz.

Dieser Datensatz wurde am 29. September 2012 erstellt

WikiLinks.torrent
Seeding 3Herunterladen 0Abgeschlossen 591Gesamtdownloads 602
  • WikiLinks/
    • README.md
      1.33 KB
    • README.txt
      2.67 KB
      • data/
        • README.txt
          6.86 KB
        • data-00000-of-00010.gz
          175.01 MB
        • data-00001-of-00010.gz
          350.24 MB
        • data-00002-of-00010.gz
          525.45 MB
        • data-00003-of-00010.gz
          700.97 MB
        • data-00004-of-00010.gz
          875.93 MB
        • data-00005-of-00010.gz
          1.03 GB
        • data-00006-of-00010.gz
          1.2 GB
        • data-00007-of-00010.gz
          1.37 GB
        • data-00008-of-00010.gz
          1.54 GB
        • data-00009-of-00010.gz
          1.71 GB