한 달 전

고위 언어 모델의 직접 출력 연결

Sho Takase; Jun Suzuki; Masaaki Nagata

초록

본 논문은 최신 순환 신경망(RNN) 언어 모델을 제안합니다. 이 모델은 최종 RNN 계층뿐만 아니라 중간 계층에서 계산된 확률 분포를 결합합니다. 제안된 방법은 Yang et al. (2018)이 도입한 언어 모델링의 행렬 분해 해석에 기반하여 언어 모델의 표현력을 높입니다. 제안된 방법은 현재 최고 수준의 언어 모델을 개선하고, 표준 벤치마크 데이터셋인 Penn Treebank과 WikiText-2에서 가장 우수한 점수를 달성하였습니다. 또한, 제안된 방법이 기계 번역 및 헤드라인 생성이라는 두 가지 응용 작업에 기여함을 보여드립니다. 우리의 코드는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/nttcslab-nlp/doc_lm.