
초록
구조화된 상태공간 시퀀스(S4) 계층을 사용하는 모델은 장거리 시퀀스 모델링 과제에서 최고 성능을 달성해왔다. S4 계층은 선형 상태공간 모델(SSM), HiPPO 프레임워크, 그리고 딥러닝을 결합하여 높은 성능을 실현한다. 본 연구는 S4 계층의 설계를 기반으로 하여 새로운 상태공간 계층인 S5 계층을 제안한다. S4 계층은 다수의 독립적인 단일 입력-단일 출력 SSM을 사용하는 반면, S5 계층은 하나의 다중 입력-다중 출력 SSM을 사용한다. 우리는 S5와 S4 사이의 관계를 규명하고, 이를 바탕으로 S5 모델이 사용하는 초기화 및 파라미터화 기법을 개발하였다. 그 결과, 효율적이고 널리 구현된 병렬 스캔(parallel scans)을 활용할 수 있는 상태공간 계층을 구현하게 되었으며, 이는 S5가 S4와 동일한 계산 효율성을 유지하면서도 여러 장거리 시퀀스 모델링 과제에서 최고 성능을 달성할 수 있게 하였다. S5는 장거리 아레나(long range arena) 벤치마크에서 평균 87.4%의 성능을 기록하였고, 가장 어려운 Path-X 과제에서는 98.5%의 성능을 달성하였다.