HyperAI초신경

WikiText 장기 의존 언어 모델링 데이터 세트에는 Wikipedia의 고품질 문서와 벤치마크 문서에서 가져온 1억 개의 영어 단어가 포함되어 있습니다.

이 데이터 세트는 WikiText-2와 WikiText-103의 두 가지 버전으로 나뉩니다. PTB 어휘와 비교했을 때 규모가 더 크고 각 단어에 관련 원본 기사가 그대로 유지되므로 자연어 모델링에 장기적으로 의존해야 하는 시나리오에 적합합니다.

이 데이터 세트는 2016년 Salesforce Research에서 공개했으며, 주요 게시자는 Stephen Merity, Caiming Xiong, James Bradbury, Richard Socher입니다. 관련 논문은 "포인터 센티넬 혼합 모델"입니다.

WikiText 장기 의존성 언어 모델링 데이터 세트 장기 의존성 언어 모델링 데이터 세트