9일 전

RNN 아키텍처는 구문 민감한 의존 관계를 학습하기 위해 얼마나 많은 복잡성을 필요로 하는가?

Gantavya Bhatt, Hritik Bansal, Rishubh Singh, Sumeet Agarwal
RNN 아키텍처는 구문 민감한 의존 관계를 학습하기 위해 얼마나 많은 복잡성을 필요로 하는가?
초록

장기 단기 기억(Long short-term memory, LSTM) 네트워크 및 그 변종들은 다양한 언어적 과제에서의 성능을 통해 장거리 의존성(long-range dependencies)을 효과적으로 포착할 수 있음을 보여준다. 반면, 시냅스 연결 측면에서 더 생물학적으로 타당성이 높아 보이는 단순 순환 네트워크(Simple Recurrent Networks, SRNs)는 비지도 학습 환경에서 장거리 의존성과 문법 오류의 위치를 포착하는 데 일반적으로 덜 성공적이다. 본 논문에서는 생물학적 타당성과 언어적 능력 사이의 격차를 좁히는 모델을 개발하고자 한다. 우리는 신경 세포 활성의 감쇠 특성과 뉴런 집단 내 자극성 및 억제성 연결을 모델링하는 새로운 아키텍처인 Decay RNN을 제안한다. 이 모델은 생물학적 영감을 바탕으로 하면서도, 주어-동사 일치, 문장 문법성, 언어 모델링과 같은 과제에서 LSTM과 경쟁 가능한 성능을 보였다. 이러한 결과들은 RNN 아키텍처가 언어 현상을 성공적으로 모델링하기 위해 요구되는 인덕티브 편향(inductive biases)의 본질을 탐구하는 데 일부 시사점을 제공한다.