한 달 전

다중 규모에서의 신경 언어 모델링 분석

Stephen Merity; Nitish Shirish Keskar; Richard Socher
다중 규모에서의 신경 언어 모델링 분석
초록

언어 모델링 분야의 많은 선도적인 접근 방식은 새로운, 복잡하고 전문적인 구조를 도입합니다. 우리는 LSTM과 QRNN을 기반으로 하는 기존의 최신 단어 수준 언어 모델을 확장하여 더 큰 어휘집과 문자 수준의 세분화를 지원하도록 개선했습니다. 적절히 조정할 경우, LSTM과 QRNN은 각각 문자 수준(Penn Treebank, enwik8)과 단어 수준(WikiText-103) 데이터셋에서 최고의 성능을 달성합니다. 이러한 결과는 현대적인 GPU 하나를 사용하여 WikiText-103에서는 12시간, enwik8에서는 2일 이내에 얻을 수 있었습니다.