한 달 전
통계적 언어 모델링의 발전을 측정하기 위한 10억 단어 벤치마크
Ciprian Chelba; Tomas Mikolov; Mike Schuster; Qi Ge; Thorsten Brants; Phillipp Koehn; Tony Robinson

초록
우리는 통계적 언어 모델링의 진전을 측정하기 위해 새로운 벤치마크 코퍼스를 제안합니다. 거의 10억 개의 단어로 구성된 훈련 데이터를 통해, 이 벤치마크가 새로운 언어 모델링 기술을 빠르게 평가하고 다른 고급 기술과 결합할 때 그 기여도를 비교하는 데 유용하길 바랍니다. 우리는 여러 가지 잘 알려진 유형의 언어 모델들의 성능을 보여주며, 최고의 결과는 순환 신경망 기반 언어 모델에서 얻었습니다. 기본적인 미리 자르지 않은 Kneser-Ney 5-gram 모델은 혼동도(Perplexity) 67.6을 달성하였으며, 다양한 기술의 조합으로 혼동도가 35% 감소하거나, 교차 엔트로피(비트)가 10% 감소하였습니다.벤치마크는 code.google.com 프로젝트로 제공되며, 훈련/보류 데이터를 재구축하기 위한 스크립트뿐만 아니라 각 베이스라인 n-gram 모델에 대한 10개 보류 데이터 세트의 각 단어에 대한 로그 확률 값도 제공됩니다.