한 달 전

적응형 입력 표현을 이용한 신경망 언어 모델링

Alexei Baevski; Michael Auli
적응형 입력 표현을 이용한 신경망 언어 모델링
초록

우리는 Grave 등 (2017)이 제안한 적응 소프트맥스를 가변 용량의 입력 표현으로 확장하여 신경 언어 모델링에 대한 적응 입력 표현을 소개합니다. 입력 및 출력 레이어를 인수분해하는 방법과 단어, 문자 또는 하위 단어 단위를 모델링할지 여부에 대해 여러 선택이 있습니다. 우리는 이러한 인기 있는 선택들을 자기 주의 구조(self-attentional architecture)에서 체계적으로 비교하였습니다. 실험 결과, 적응 임베딩을 장착한 모델은 인기 있는 문자 입력 CNN보다 훈련 속도가 두 배 이상 빠르면서도 매개변수 수가 더 적습니다. WikiText-103 벤치마크에서 18.7의 퍼플렉서티(perplexity)를 달성하였으며, 이는 이전 최고 기록보다 10.5의 퍼플렉서티 개선입니다. 또한 10억 단어 벤치마크(Billion Word benchmark)에서는 23.02의 퍼플렉서티를 달성하였습니다.