HyperAI초신경

WikiLinks Wikipedia 링크 데이터 세트

날짜

2년 전

크기

1.71 GB

기관

발행 주소

code.google.com

라이선스

CC BY-NC-SA 3.0

特色图像

WikiLinks는 Wikipedia의 전체 텍스트를 문단, 구문 또는 문단 자체의 일부로 검색할 수 있게 해주는 데이터 세트입니다. 이 데이터 세트는 웹 검색에서 찾은 하이퍼링크를 기반으로 위키피디아의 각 페이지를 엔터티(또는 개념이나 아이디어)를 나타내는 것으로 취급하고, 앵커 텍스트를 언급으로 사용합니다. 이를 통해 궁극적으로 인간의 조작이 필요 없이 대규모로 레이블이 지정된 데이터를 제공할 수 있습니다.

데이터 세트에는 다음이 포함됩니다.

  • 400만 개 이상의 기사에서 약 19억 단어
  • 300만 개의 엔터티에 대한 4천만 개의 참조
  • 10개의 압축 텍스트 파일 data-0000[0-9]-of-00010.gz.

이 데이터 세트는 2012년 9월 29일에 생성되었습니다.

WikiLinks.torrent
시딩 1다운로드 중 1완료됨 570총 다운로드 횟수 589
  • WikiLinks/
    • README.md
      1.33 KB
    • README.txt
      2.67 KB
      • data/
        • README.txt
          6.86 KB
        • data-00000-of-00010.gz
          175.01 MB
        • data-00001-of-00010.gz
          350.24 MB
        • data-00002-of-00010.gz
          525.45 MB
        • data-00003-of-00010.gz
          700.97 MB
        • data-00004-of-00010.gz
          875.93 MB
        • data-00005-of-00010.gz
          1.03 GB
        • data-00006-of-00010.gz
          1.2 GB
        • data-00007-of-00010.gz
          1.37 GB
        • data-00008-of-00010.gz
          1.54 GB
        • data-00009-of-00010.gz
          1.71 GB