한 달 전

통계적 언어 모델링의 발전을 측정하기 위한 10억 단어 벤치마크

Ciprian Chelba; Tomas Mikolov; Mike Schuster; Qi Ge; Thorsten Brants; Phillipp Koehn; Tony Robinson
통계적 언어 모델링의 발전을 측정하기 위한 10억 단어 벤치마크
초록

우리는 통계적 언어 모델링의 진전을 측정하기 위해 새로운 벤치마크 코퍼스를 제안합니다. 거의 10억 개의 단어로 구성된 훈련 데이터를 통해, 이 벤치마크가 새로운 언어 모델링 기술을 빠르게 평가하고 다른 고급 기술과 결합할 때 그 기여도를 비교하는 데 유용하길 바랍니다. 우리는 여러 가지 잘 알려진 유형의 언어 모델들의 성능을 보여주며, 최고의 결과는 순환 신경망 기반 언어 모델에서 얻었습니다. 기본적인 미리 자르지 않은 Kneser-Ney 5-gram 모델은 혼동도(Perplexity) 67.6을 달성하였으며, 다양한 기술의 조합으로 혼동도가 35% 감소하거나, 교차 엔트로피(비트)가 10% 감소하였습니다.벤치마크는 code.google.com 프로젝트로 제공되며, 훈련/보류 데이터를 재구축하기 위한 스크립트뿐만 아니라 각 베이스라인 n-gram 모델에 대한 10개 보류 데이터 세트의 각 단어에 대한 로그 확률 값도 제공됩니다.

통계적 언어 모델링의 발전을 측정하기 위한 10억 단어 벤치마크 | 최신 연구 논문 | HyperAI초신경