
초록
고도로 규제된 LSTM은 언어 모델링의 여러 벤치마크 데이터셋에서 뛰어난 성과를 거두었습니다. 본 연구에서는 문맥 내 마지막 토큰을 다음 토큰의 예측 분포를 사용하여 디코딩하는 새로운 규제 방법을 제안합니다. 이 방법은 모델이 더 많은 문맥 정보를 유지하도록 편향시키며, 이는 차례로 다음 토큰을 예측하는 능력을 개선시킵니다. 매개변수 수와 학습 시간에 미미한 부담만을 주면서, 우리의 과거 디코딩 규제(Past Decode Regularization, PDR) 방법은 단일 소프트맥스를 사용하여 Penn Treebank 데이터셋에서 단어 수준 퍼플렉서티 55.6, WikiText-2 데이터셋에서 63.5를 달성하였습니다. 또한, PDR을 소프트맥스 혼합(mixture-of-softmaxes)과 함께 사용할 때 성능 향상을 보였으며, 이 조합으로 Penn Treebank 및 WikiText-2 데이터셋에서 각각 단어 수준 퍼플렉서티 53.8과 60.5를 기록하였습니다. 또한, 우리 방법은 Penn Treebank 캐릭터 데이터셋에서 문자 수준 언어 모델링에 대해 1.169 비트당 문자를 달성하였습니다. 이러한 결과들은 각각의 설정에서 새로운 최신 기술(state-of-the-art)을 구현하고 있습니다.