2달 전

순환, 컨벌루션, 그리고 연속 시간 모델을 선형 상태 공간 계층과 결합하기

Albert Gu; Isys Johnson; Karan Goel; Khaled Saab; Tri Dao; Atri Rudra; Christopher Ré
순환, 컨벌루션, 그리고 연속 시간 모델을 선형 상태 공간 계층과 결합하기
초록

재귀 신경망(RNNs), 시간적 합성곱, 그리고 신경 미분 방정식(NDEs)은 시계열 데이터를 위한 인기 있는 딥 러닝 모델 가족들로, 각각 고유한 강점과 모델링 능력 및 계산 효율성 간의 절충안을 가지고 있습니다. 본 연구에서는 제어 시스템에서 영감을 얻은 단순한 시퀀스 모델을 소개하며, 이 모델은 이러한 접근법들을 일반화하면서 그들의 약점을 해결합니다. 선형 상태공간 층(LSSL)은 단순히 선형 연속시간 상태공간 표현 $\dot{x} = Ax + Bu, y = Cx + Du$를 시뮬레이션하여 시퀀스 $u \mapsto y$를 매핑합니다. 이론적으로는 LSSL 모델들이 위에서 언급된 세 가지 모델 가족들과 밀접한 관련이 있으며 그들의 강점을 상속한다는 것을 보여줍니다. 예를 들어, LSSL은 합성곱을 연속시간으로 일반화하고, 일반적인 RNN 휴리스틱을 설명하며, 시간 척도 적응 등의 NDE 특징을 공유합니다. 또한 최근의 연속시간 기억 이론을 통합하고 일반화하여 LSSL에 장기 기억력을 부여하는 구조화된 행렬 $A$의 학습 가능한 부분 집합을 도입합니다. 경험적으로, LSSL 층들을 단순한 딥 뉴럴 네트워크로 쌓아서 시퀀스 이미지 분류, 실제 의료 회귀 작업, 음성 등 다양한 시계열 벤치마크에서 장기 의존성을 갖는 최고 수준의 결과를 얻었습니다. 길이가 16000인 어려운 음성 분류 작업에서 LSSL은 기존 접근법보다 24%의 정확도를 높였으며, 100배 짧은 시퀀스를 사용하는 수작업 특징 기반 베이선보다도 우수한 성능을 보였습니다.