2달 전

장기 시퀀스를 구조화된 상태 공간으로 효율적으로 모델링하기

Albert Gu; Karan Goel; Christopher Ré
장기 시퀀스를 구조화된 상태 공간으로 효율적으로 모델링하기
초록

시퀀스 모델링의 핵심 목표는 다양한 모달리티와 작업에 걸쳐 시퀀스 데이터를 처리할 수 있는 단일 원칙적인 모델을 설계하는 것입니다, 특히 장기 의존성(long-range dependencies)에 대해 그렇습니다. 비록 RNN, CNN, 및 Transformer와 같은 전통적인 모델들이 장기 의존성을 포착하기 위한 특화된 변형을 가지고 있지만, 이들 모델은 여전히 10,000단계 이상의 매우 긴 시퀀스로 확장하는 데 어려움을 겪고 있습니다. 최근 유망한 접근 방식으로는 기본 상태 공간 모델(SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) )를 시뮬레이션하여 시퀀스를 모델링하는 것이 제안되었습니다. 이 연구는 적절한 상태 행렬 ( A ) 선택 시 이 시스템이 수학적 및 경험적으로 장기 의존성을 처리할 수 있음을 보여주었습니다. 그러나 이 방법은 계산과 메모리 요구 사항이 과도하여 일반적인 시퀀스 모델링 솔루션으로는 실현 가능하지 않습니다.우리는 새로운 SSM 매개변수화 기법을 기반으로 구조화된 상태 공간 시퀀스 모델(Structured State Space sequence model, S4)을 제안하며, 이 모델이 이전 접근 방식보다 훨씬 효율적으로 계산될 수 있으면서도 그들의 이론적 강점을 유지할 수 있음을 보여줍니다. 우리의 기술은 ( A )를 저순위(low-rank) 수정으로 조건부로 설정하여 안정적으로 대각선화(diagonalize)하고, SSM을 코시 커널(Cauchy kernel) 계산이라는 잘 연구된 문제로 축소시키는 것을 포함합니다.S4는 순차 CIFAR-10에서 데이터 증강이나 보조 손실 없이 91%의 정확도를 달성하여 더 큰 2D ResNet과 맞먹는 성능을 보였으며, 이미지 및 언어 모델링 작업에서 Transformer와의 차이를 크게 좁혔습니다. 또한 생성 속도가 60배 더 빠릅니다. S4는 Long Range Arena 벤치마크의 모든 작업에서 최상의 성능(SoTA)을 달성했으며, 특히 이전 연구들이 실패한 길이 16k의 도전적인 Path-X 작업에서도 해결하면서 모든 경쟁자들과 동등한 효율성을 유지했습니다.

장기 시퀀스를 구조화된 상태 공간으로 효율적으로 모델링하기 | 최신 연구 논문 | HyperAI초신경