2달 전

독립적으로 재귀 신경망 (IndRNN): 더 긴 그리고 깊은 RNN 구축

Shuai Li; Wanqing Li; Chris Cook; Ce Zhu; Yanbo Gao
독립적으로 재귀 신경망 (IndRNN): 더 긴 그리고 깊은 RNN 구축
초록

재귀 신경망(RNN)은 순차 데이터 처리에 널리 사용되어 왔습니다. 그러나 RNN은 잘 알려진 기울기 소실 및 폭발 문제로 인해 훈련이 어려우며, 장기 패턴을 학습하기도 어렵습니다. 이러한 문제를 해결하기 위해 장단기 기억(LSTM)과 게이트 재귀 유닛(GRU)이 개발되었지만, 쌍곡 탄젠트와 시그모이드 활성화 함수의 사용으로 인해 계층 간 기울기가 감소하는 문제가 발생합니다. 따라서 효율적으로 훈련할 수 있는 깊은 네트워크 구축은 여전히 도전적입니다. 또한, RNN 계층 내 모든 뉴런들은 서로 얽혀 있어 그 행동을 해석하기 어렵습니다.본 논문에서는 이러한 문제를 해결하기 위해 동일한 계층 내 뉴런들이 서로 독립적이면서 다른 계층 간 연결되는 새로운 종류의 RNN, 즉 독립 재귀 신경망(IndRNN)을 제안합니다. 우리는 IndRNN이 기울기 폭발 및 소실 문제를 방지하면서 장기 의존성을 학습할 수 있도록 쉽게 조절될 수 있음을 보였습니다. 더욱이, IndRNN은 ReLU(정류 선형 유닛)와 같은 포화되지 않는 활성화 함수를 사용하여도 안정적으로 훈련될 수 있습니다. 여러 개의 IndRNN을 쌓아서 기존 RNN보다 더 깊은 네트워크를 구성할 수 있습니다.실험 결과, 제안된 IndRNN은 매우 긴 시퀀스(5000 시간 단계 이상)를 처리할 수 있으며, 매우 깊은 네트워크(실험에서 21개 계층 사용)를 구성하고도 안정적으로 훈련될 수 있었습니다. IndRNN을 사용함으로써 전통적인 RNN과 LSTM보다 다양한 작업에서 더 우수한 성능을 달성하였습니다. 코드는 https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne에서 제공됩니다.