2달 전

액체 구조 상태공간 모델

Ramin Hasani; Mathias Lechner; Tsun-Hsuan Wang; Makram Chahine; Alexander Amini; Daniela Rus
액체 구조 상태공간 모델
초록

선형 상태공간 모델(SSM)의 상태 전이 행렬에 대한 적절한 매개변수화와 표준 비선형 함수를 사용하면 순차 데이터에서 효율적으로 표현을 학습할 수 있으며, 이는 장기 시퀀스 모델링 벤치마크의 다수에서 최신 기술 수준을 확립하였습니다. 본 논문에서는 구조적 SSM인 S4가 선형 액체 시간 상수(LTC) 상태공간 모델로 주어질 때 더 나은 성능 향상을 보일 수 있음을 보입니다. LTC 신경망은 인과적인 연속시간 신경망으로, 입력에 따라 상태 전이 모듈이 변하기 때문에 추론 시 들어오는 입력에 적응하도록 학습됩니다. S4에서 소개된 상태 전이 행렬의 대각합 저순위 분해(diagonal plus low-rank decomposition)와 몇 가지 단순화를 통해 LTC 기반의 구조적 상태공간 모델, 즉 Liquid-S4가 장기 의존성을 가진 이미지, 텍스트, 오디오 및 의료 시간 시리즈 등의 시퀀스 모델링 작업에서 새로운 최신 기술 수준의 일반화를 달성함을 보였습니다. Long-Range Arena 벤치마크에서 평균 87.32%의 성능을 나타냈습니다. 전체 원시 음성 명령 인식 데이터셋에서 Liquid-S4는 S4보다 30% 적은 매개변수로 96.78%의 정확도를 달성하였습니다. 성능 향상은 훈련 및 추론 중 입력 시퀀스 샘플 간 유사성을 고려하는 Liquid-S4의 커널 구조에 직접적으로 기인합니다.

액체 구조 상태공간 모델 | 최신 연구 논문 | HyperAI초신경