2달 전
장기 시퀀스를 위한 순환 신경망의 부활
Antonio Orvieto; Samuel L Smith; Albert Gu; Anushan Fernando; Caglar Gulcehre; Razvan Pascanu; Soham De

초록
재귀 신경망(RNNs)은 긴 시퀀스에서 빠른 추론을 제공하지만 최적화하기 어려우며 학습 속도가 느립니다. 최근 깊은 상태 공간 모델(SSMs)이 긴 시퀀스 모델링 작업에서 뛰어난 성능을 보여주었으며, 빠른 병렬 학습과 RNN과 유사한 빠른 추론의 이점이 추가되었습니다. 그러나 SSMs는 겉보기에 RNNs와 비슷해 보이지만, 성능 향상의 원인이 명확하지 않은 중요한 차이점들이 존재합니다. 본 논문에서는 표준 신호 전달 인수를 사용하여 깊은 RNNs를 신중하게 설계함으로써 깊은 SSMs의 인상적인 성능을 회복할 수 있으며, 동시에 그들의 학습 속도와 일치시킬 수 있음을 보입니다. 이를 위해 우리는 표준 RNNs에 대한 일련의 변경 사항들을 분석하고 제거实验(ablation)합니다. 이에는 반복 과정을 선형화하고 대각화하는 것, 더 나은 매개변수화와 초기화 방법을 사용하며, 순방향 패스의 적절한 정규화를 보장하는 것이 포함됩니다. 우리의 결과는 깊은 SSMs의 인상적인 성능의 기원에 대한 새로운 통찰력을 제공하며, Long Range Arena 벤치마크에서 그들의 성능과 계산 효율성을 모두 일치시키는 RNN 블록인 선형 재귀 유닛(Linear Recurrent Unit)을 소개합니다.注:在“제거实验”后面加上了(ablation),以确保术语的准确性。