3달 전

Mamba-360: 긴 시계열 모델링을 위한 Transformer 대안으로서의 상태공간 모델에 대한 종합적 조사: 방법, 응용 및 도전 과제

Badri Narayana Patro, Vijay Srinivas Agneeswaran
Mamba-360: 긴 시계열 모델링을 위한 Transformer 대안으로서의 상태공간 모델에 대한 종합적 조사: 방법, 응용 및 도전 과제
초록

시퀀스 모델링은 자연어 처리(NLP), 음성 인식, 시계열 예측, 음악 생성, 생물정보학 등 다양한 분야에서 핵심적인 역할을 하는 영역이다. 과거에는 순환 신경망(RNN)과 장단기 기억망(LSTM)이 기계 번역, 명명된 실체 인식(NER) 등 시퀀스 모델링 과제에서 주도적인 위치를 차지해왔다. 그러나 트랜스포머(Transformer)의 발전으로 인해 이러한 패러다임이 변화하였으며, 트랜스포머는 우수한 성능을 보이며 새로운 표준으로 자리 잡았다. 그러나 트랜스포머는 $O(N^2)$의 어텐션 복잡도와 유도적 편향(Inductive bias) 처리의 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 스펙트럴 네트워크나 컨볼루션을 활용한 다양한 변형들이 제안되었으며, 다양한 과제에서 우수한 성능을 보였다. 그럼에도 불구하고, 긴 시퀀스 처리에 있어서 여전히 한계를 겪고 있다. 이러한 맥락에서 상태공간 모델(State Space Models, SSMs)이 새로운 시퀀스 모델링 패러다임으로 부상하고 있으며, 특히 S4 및 그 변종인 S4nd, Hippo, Hyena, 대각 상태공간(DSS), 게이팅 상태공간(GSS), 선형 순환 유닛(LRU), Liquid-S4, Mamba 등이 주목받고 있다.이 조사에서는 기초적인 SSM을 세 가지 패러다임—게이팅 아키텍처(Gating architectures), 구조적 아키텍처(Structural architectures), 순환 아키텍처(Recurrent architectures)—기준으로 분류한다. 본 조사에서는 또한 SSM의 다양한 응용 사례를 시각, 영상, 음성, 언어(특히 긴 시퀀스 모델링), 의료(유전체학 포함), 화학(약물 설계 등), 추천 시스템, 시계열 분석(표형 데이터 포함) 등 다양한 분야에 걸쳐 정리한다. 더불어 Long Range Arena(LRA), WikiText, GLUE, Pile, ImageNet, Kinetics-400, sstv2 등의 벤치마크 데이터셋과 Breakfast, COIN, LVU 등의 영상 데이터셋, 그리고 다양한 시계열 데이터셋에서의 SSM 성능을 종합적으로 정리하였다. Mamba-360 연구 프로젝트 페이지는 다음 웹페이지에서 확인할 수 있다. \url{https://github.com/badripatro/mamba360}.