한 달 전

소프트맥스 병목 현상을 극복하는 고차원 RNN 언어 모델

Zhilin Yang; Zihang Dai; Ruslan Salakhutdinov; William W. Cohen
소프트맥스 병목 현상을 극복하는 고차원 RNN 언어 모델
초록

우리는 언어 모델링을 행렬 분해 문제로 정식화하고, 소프트맥스 기반 모델(대부분의 신경망 언어 모델 포함)의 표현력이 소프트맥스 병목 현상(Softmax bottleneck)에 의해 제한됨을 보여줍니다. 자연어가 높은 문맥 의존성을 가지고 있다는 점을 고려하면, 이는 실질적으로 분산 단어 임베딩과 함께 사용되는 소프트맥스가 자연어를 모델링하기에 충분한 용량을 갖추지 못함을 의미합니다. 우리는 이 문제를 해결하기 위한 간단하면서도 효과적인 방법을 제안하며, 이를 통해 Penn Treebank 및 WikiText-2 데이터셋에서 최신 기술 수준의 퍼플렉시티를 각각 47.69와 40.68로 개선하였습니다. 제안된 방법은 대규모 1B 단어 데이터셋에서도 우수한 성능을 발휘하여, 베이스라인보다 퍼플렉시티에서 5.6점 이상 뛰어난 결과를 얻었습니다.