한 달 전

시퀀스 모델링을 위한 곱셈 LSTM

Ben Krause; Liang Lu; Iain Murray; Steve Renals
시퀀스 모델링을 위한 곱셈 LSTM
초록

우리는 시퀀스 모델링을 위한 순환 신경망 아키텍처로 장단기 기억(LSTM)과 곱셈 순환 신경망 아키텍처를 결합한 곱셈 LSTM(mLSTM)을 소개합니다. mLSTM은 각 가능한 입력에 대해 다른 순환 전이 함수를 가질 수 있는 능력으로 특징지어집니다. 이는 mLSTM이 자기회귀 밀도 추정에서 더 표현력을 갖출 수 있음을 주장하는 근거가 됩니다. 우리는 경험적으로 mLSTM이 다양한 문자 단위 언어 모델링 작업에서 표준 LSTM 및 그 깊은 변형보다 우수한 성능을 보임을 입증하였습니다. 본 논문의 이 버전에서는 mLSTM을 규제하여 text8 데이터셋에서 1.27 비트/문자, Hutter Prize 데이터셋에서 1.24 비트/문자를 달성하였습니다. 또한 WikiText-2 데이터셋에 순수 바이트 단위의 mLSTM을 적용하여 문자 단위 엔트로피 1.26 비트/문자를 달성하였으며, 이는 같은 작업에서 유사하게 규제된 단어 단위 LSTM과 비교할 만한 단어 단위 퍼플렉서티 88.8을 기록하였습니다.