한 달 전

다중 규모에서의 신경 언어 모델링 분석

Stephen Merity; Nitish Shirish Keskar; Richard Socher

초록

언어 모델링 분야의 많은 선도적인 접근 방식은 새로운, 복잡하고 전문적인 구조를 도입합니다. 우리는 LSTM과 QRNN을 기반으로 하는 기존의 최신 단어 수준 언어 모델을 확장하여 더 큰 어휘집과 문자 수준의 세분화를 지원하도록 개선했습니다. 적절히 조정할 경우, LSTM과 QRNN은 각각 문자 수준(Penn Treebank, enwik8)과 단어 수준(WikiText-103) 데이터셋에서 최고의 성능을 달성합니다. 이러한 결과는 현대적인 GPU 하나를 사용하여 WikiText-103에서는 12시간, enwik8에서는 2일 이내에 얻을 수 있었습니다.