
초록
순환 신경망(RNN)은 장단기 기억망(LSTM)과 같이 기계 번역, 언어 모델링, 질문 응답 등 많은 시퀀스 학습 과제의 기본 구성 요소로 작용합니다. 본 논문에서는 단어 수준의 언어 모델링 문제에 집중하여 LSTM 기반 모델을 규제하고 최적화하기 위한 전략을 조사합니다. 우리는 숨겨진 상태 간 가중치에 DropConnect를 적용하여 순환 규제 형태를 제공하는 weight-dropped LSTM을 제안합니다. 또한, 사용자가 조정하는 대신 비단조 조건을 사용하여 평균화 트리거를 결정하는 평균 스토캐스틱 그래디언트 방법(ASGD)의 변형인 NT-ASGD를 소개합니다. 이러한 규제 전략들과 다른 규제 전략들을 사용하여 Penn Treebank 데이터셋에서 57.3, WikiText-2 데이터셋에서 65.8의 최고 수준의 단어 수준 퍼플렉서티를 달성했습니다. 제안된 모델과 함께 신경망 캐시의 효과성을 탐구한 결과, Penn Treebank에서 52.8, WikiText-2에서 52.0의 더욱 낮은 최고 수준의 퍼플렉서티를 달성했습니다.