2달 전
게이팅 재검토: 훈련 가능한 깊은 다중 레이어 RNNs
Mehmet Ozgur Turkoglu; Stefano D'Aronco; Jan Dirk Wegner; Konrad Schindler

초록
우리는 순환 신경망(RNNs)을 위한 새로운 스택형 순환 셀(STAckable Recurrent cell, STAR)을 제안합니다. 이 셀은 널리 사용되는 LSTM과 GRU보다 적은 매개변수를 가지고 있으며, 소실 또는 폭발 그레디언트에 대해 더 강건합니다. 다층 구조로 순환 유닛들을 쌓는 것은 두 가지 주요 제한 사항으로 인해 어려움을 겪습니다: (i) 많은 순환 셀(예: LSTMs)이 매개변수와 계산 자원 면에서 비용이 많이 들며; (ii) 깊은 RNNs은 훈련 중에 '수직' 방향으로 네트워크를 통과하는 그레디언트의 크기가 소실되거나 폭발하기 쉽습니다. 우리는 다층 RNNs의 훈련을 조사하고, 그레디언트가 네트워크를 통과할 때의 크기를 검토합니다. 분석 결과, 기본 순환 유닛의 구조에 따라 그레디언트가 체계적으로 감소하거나 증폭됨을 보여줍니다. 이러한 분석을 바탕으로 우리는 그레디언트 크기를 더 잘 유지할 수 있는 새로운 게이티드 셀을 설계하였습니다. 우리는 다양한 시퀀스 모델링 작업에서 우리의 설계를 검증하였으며, 제안된 STAR 셀이 더 깊은 순환 아키텍처를 구축하고 훈련시키는 데 도움이 되어 최종적으로 성능 개선과 함께 계산 효율성이 높아짐을 입증하였습니다.