15일 전

시퀀스 모델링을 위한 간소화된 상태공간 레이어

Jimmy T.H. Smith, Andrew Warrington, Scott W. Linderman
시퀀스 모델링을 위한 간소화된 상태공간 레이어
초록

구조화된 상태공간 시퀀스(S4) 계층을 사용하는 모델은 장거리 시퀀스 모델링 과제에서 최고 성능을 달성해왔다. S4 계층은 선형 상태공간 모델(SSM), HiPPO 프레임워크, 그리고 딥러닝을 결합하여 높은 성능을 실현한다. 본 연구는 S4 계층의 설계를 기반으로 하여 새로운 상태공간 계층인 S5 계층을 제안한다. S4 계층은 다수의 독립적인 단일 입력-단일 출력 SSM을 사용하는 반면, S5 계층은 하나의 다중 입력-다중 출력 SSM을 사용한다. 우리는 S5와 S4 사이의 관계를 규명하고, 이를 바탕으로 S5 모델이 사용하는 초기화 및 파라미터화 기법을 개발하였다. 그 결과, 효율적이고 널리 구현된 병렬 스캔(parallel scans)을 활용할 수 있는 상태공간 계층을 구현하게 되었으며, 이는 S5가 S4와 동일한 계산 효율성을 유지하면서도 여러 장거리 시퀀스 모델링 과제에서 최고 성능을 달성할 수 있게 하였다. S5는 장거리 아레나(long range arena) 벤치마크에서 평균 87.4%의 성능을 기록하였고, 가장 어려운 Path-X 과제에서는 98.5%의 성능을 달성하였다.