11일 전

HiPPO를 훈련하는 방법: 일반화된 직교 기저 투영을 활용한 상태공간 모델

Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher Ré
HiPPO를 훈련하는 방법: 일반화된 직교 기저 투영을 활용한 상태공간 모델
초록

선형 시간 불변 상태공간 모델(Linear time-invariant state space models, SSM)은 공학 및 통계학에서 오랜 전통을 가진 모델로, 최근 Structured State Space sequence model(S4)을 통해 기계학습 분야에서 매우 유망한 가능성을 보여주었다. S4의 핵심 구성 요소 중 하나는 상태행렬을 특별한 행렬, 즉 HiPPO 행렬로 초기화하는 것이다. 이는 S4가 긴 시계열 데이터를 다룰 수 있는 능력에 있어 경험적으로 중요한 역할을 했다. 그러나 S4가 사용하는 특정 행렬은 이전 연구에서 시간에 따라 변화하는 동적 시스템을 위한 목적을 가지고 유도된 것이며, 이를 시간 불변 SSM에 적용할 경우 명확한 수학적 해석이 없었다. 따라서 S4가 장거리 의존성을 어떻게 모델링하는지에 대한 이론적 메커니즘은 여전히 설명되지 않은 상태였다. 본 연구에서는 HiPPO 프레임워크를 더 일반적이고 직관적인 형태로 재정의함으로써, S4가 지수적으로 왜곡된 레전드르 다항식(legendre polynomials)에 대한 분해로 해석될 수 있음을 제시한다. 이는 S4가 장거리 의존성을 효과적으로 포착할 수 있는 이유를 명확히 설명한다. 본 연구의 일반화는 이론적으로 풍부한 새로운 SSM 클래스를 도입하며, 푸리에 기저(Fourier basis) 등 다른 기저를 활용한 보다 직관적인 S4 변형을 유도할 수 있게 한다. 또한 S4 학습 과정에서 중요한 시간 스케일 파라미터 초기화 방법 등 다양한 측면을 해석할 수 있게 된다. 이러한 통찰은 Long Range Arena 벤치마크에서 S4의 성능을 86%로 향상시키며, 가장 어려운 Path-X 작업에서는 96%의 성능을 달성하였다.

HiPPO를 훈련하는 방법: 일반화된 직교 기저 투영을 활용한 상태공간 모델 | 최신 연구 논문 | HyperAI초신경