WikiLinks Wikipedia 링크 데이터 세트

WikiLinks는 Wikipedia의 전체 텍스트를 문단, 구문 또는 문단 자체의 일부로 검색할 수 있게 해주는 데이터 세트입니다. 이 데이터 세트는 웹 검색에서 찾은 하이퍼링크를 기반으로 위키피디아의 각 페이지를 엔터티(또는 개념이나 아이디어)를 나타내는 것으로 취급하고, 앵커 텍스트를 언급으로 사용합니다. 이를 통해 궁극적으로 인간의 조작이 필요 없이 대규모로 레이블이 지정된 데이터를 제공할 수 있습니다.
데이터 세트에는 다음이 포함됩니다.
- 400만 개 이상의 기사에서 약 19억 단어
- 300만 개의 엔터티에 대한 4천만 개의 참조
- 10개의 압축 텍스트 파일 data-0000[0-9]-of-00010.gz.
이 데이터 세트는 2012년 9월 29일에 생성되었습니다.
WikiLinks.torrent
시딩 1다운로드 중 1완료됨 570총 다운로드 횟수 589