9일 전
RNN 아키텍처는 구문 민감한 의존 관계를 학습하기 위해 얼마나 많은 복잡성을 필요로 하는가?
Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal

초록
장기 단기 기억(Long short-term memory, LSTM) 네트워크 및 그 변종들은 다양한 언어적 과제에서의 성능을 통해 장거리 의존성(long-range dependencies)을 효과적으로 포착할 수 있음을 보여준다. 반면, 시냅스 연결 측면에서 더 생물학적으로 타당성이 높아 보이는 단순 순환 네트워크(Simple Recurrent Networks, SRNs)는 비지도 학습 환경에서 장거리 의존성과 문법 오류의 위치를 포착하는 데 일반적으로 덜 성공적이다. 본 논문에서는 생물학적 타당성과 언어적 능력 사이의 격차를 좁히는 모델을 개발하고자 한다. 우리는 신경 세포 활성의 감쇠 특성과 뉴런 집단 내 자극성 및 억제성 연결을 모델링하는 새로운 아키텍처인 Decay RNN을 제안한다. 이 모델은 생물학적 영감을 바탕으로 하면서도, 주어-동사 일치, 문장 문법성, 언어 모델링과 같은 과제에서 LSTM과 경쟁 가능한 성능을 보였다. 이러한 결과들은 RNN 아키텍처가 언어 현상을 성공적으로 모델링하기 위해 요구되는 인덕티브 편향(inductive biases)의 본질을 탐구하는 데 일부 시사점을 제공한다.