한 달 전

Mogrifier LSTM

Gábor Melis; Tomáš Kočiský; Phil Blunsom
Mogrifier LSTM
초록

자연어 처리(Natural Language Processing)의 많은 발전은 입력이 발생하는 맥락과 상호작용하는 방식에 대한 더 표현력 있는 모델을 기반으로 이루어져 왔습니다. 반복망(RNN, Recurrent Networks)은 일정한 성공을 거두었지만, 언어 모델링에 최종적으로 요구되는 일반화能力和系统性(일반화 능력과 체계성)을 여전히 갖추지 못하고 있습니다. 본 연구에서는 현재 입력과 이전 출력 간의 상호 게이팅(mutual gating) 메커니즘을 통해 오랜 역사를 가진 장단기 기억(LSTM, Long Short-Term Memory) 모델을 확장하는 방법을 제안합니다. 이 메커니즘은 입력과 그 맥락 간의 더 풍부한 상호작용 공간을 모델링할 수 있게 합니다. 동등하게, 우리의 모델은 LSTM이 제공하는 전이 함수(transition function)를 맥락에 따라 변동시키는 것으로 볼 수 있습니다. 실험 결과는 Penn Treebank 및 Wikitext-2에서 3-4 포인트의 퍼플렉시티(perplexity) 감소와 네 개의 문자 기반 데이터셋에서 0.01-0.05 비트당 문자(bpc, bits per character) 감소를 통해 언어 모델링에서 현저히 개선된 일반화 성능을 보여주었습니다. 우리는 모든 데이터셋에서 새로운 최고 성능(state of the art)을 달성하였으며, LSTM과 Transformer 모델 사이의 큰 차이를 좁힌 Enwik8 데이터셋을 제외하고는 모두 새로운 기준을 세웠습니다.