한 달 전
재귀적 고속도로 네트워크
Julian Georg Zilly; Rupesh Kumar Srivastava; Jan Koutník; Jürgen Schmidhuber

초록
많은 순차적 처리 작업은 한 단계에서 다음 단계로의 복잡한 비선형 전이 함수를 필요로 합니다. 그러나 '깊은' 전이 함수를 사용하는 순환 신경망은 Long Short-Term Memory (LSTM) 네트워크를 사용하더라도 여전히 훈련하기 어렵습니다. 우리는 Gersgorin의 원리에 기반한 새로운 이론적 분석을 소개하여 여러 모델링 및 최적화 문제를 명확히 하고 LSTM 셀에 대한 이해를 높입니다. 이 분석을 바탕으로 단계 간 전이 깊이가 1보다 큰 것을 허용하는 LSTM 아키텍처를 확장한 Recurrent Highway Networks (RHNs)를 제안합니다. 여러 언어 모델링 실험에서 제안된 아키텍처가 강력하고 효율적인 모델을 생성한다는 것이 입증되었습니다. Penn Treebank 코퍼스에서 전이 깊이를 1에서 10으로 단독으로 증가시키면 동일한 매개변수 수를 사용하여 단어 수준의 혼동도가 90.6에서 65.4로 개선됩니다. 더 큰 위키백과 데이터셋(text8와 enwik8)에서 문자 예측을 위한 RHNs는 모든 이전 결과를 능가하며 문자당 엔트로피 1.27비트를 달성했습니다.