
초록
순환 신경망(RNNs)은 그래디언트 소실 및 폭발 문제로 인해 훈련이 어려우며, 이로 인해 장기 패턴을 학습하고 깊은 네트워크를 구성하는 것이 어렵습니다. 이러한 문제를 해결하기 위해 본 논문에서는 순환 연결이 하다마르 곱(Hadamard product)으로 표현되는 새로운 유형의 RNN인 독립적 순환 신경망(IndRNN)을 제안합니다. 여기서 같은 층 내의 뉴런들은 서로 독립적이며, 층 간에 연결됩니다. 더 안정적인 그래디언트 역전파 덕분에, 규제된 순환 가중치를 사용한 IndRNN은 그래디언트 소실 및 폭발 문제를 효과적으로 해결하며, 따라서 장기 의존성을 학습할 수 있습니다. 또한, IndRNN은 ReLU(rectified linear unit)와 같은 포화되지 않은 활성화 함수와 함께 작동할 수 있으며 여전히 견고하게 훈련될 수 있습니다. 기본 스택 IndRNN, 잔차 IndRNN, 밀집 연결 IndRNN 등 다양한 깊은 IndRNN 아키텍처가 연구되었으며, 이들 모두 기존 RNN보다 훨씬 깊을 수 있습니다. 더욱이, IndRNN은 각 시간 단계에서 계산량을 줄일 수 있으며, 일반적으로 사용되는 장단기 기억(LSTM)보다 최대 10배 이상 빠릅니다. 실험 결과는 제안된 IndRNN이 매우 긴 시퀀스를 처리하고 매우 깊은 네트워크를 구성할 수 있음을 보여주었습니다. 전통적인 RNN, LSTM 및 인기 있는 Transformer와 비교하여 다양한 작업에서 IndRNN이 더 우수한 성능을 달성하였습니다.