TSMixer: 다변량 시계열 예측을 위한 경량 MLP-Mixer 모델

시계열 예측 분야에서 트랜스포머는 장기간 시퀀스 간 상호작용을 효과적으로 포착할 수 있다는 장점으로 인해 인기를 끌고 있다. 그러나 고해상도 메모리 및 계산 자원 소비로 인해 장기 예측에 있어 핵심적인 성능 저하 요인이 되고 있다. 이를 해결하기 위해 우리는 다변량 시계열 데이터에 대한 예측 및 표현 학습을 위해 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 모듈만으로 구성된 경량 신경망 아키텍처인 TSMixer를 제안한다. 컴퓨터 비전 분야에서 성공을 거둔 MLP-Mixer의 성공 사례를 영감으로 삼아, 시계열 데이터에 적합하도록 변형하였으며, 시계열 데이터의 특성(예: 계층 구조, 채널 간 상관관계)을 명시적으로 모델링할 수 있도록 새로운 설계 원칙을 도입하였다. 특히, MLP-Mixer 기반 아키텍처에 온라인 보정 헤드(online reconciliation heads)를 부착하는 혁신적인 접근 방식을 제안함으로써, 시계열의 구조적 특성을 효과적으로 반영할 수 있게 되었다. 또한, 단순한 게이팅(gating) 기법을 도입하여 채널 간 노이즈 상호작용을 효과적으로 다루고 다양한 데이터셋 간 일반화 성능을 향상시키는 하이브리드 채널 모델링 기법을 제안하였다. 이러한 경량 구조의 도입을 통해 단순한 MLP 구조의 학습 능력을 크게 향상시켰으며, 복잡한 트랜스포머 모델보다 훨씬 적은 계산 자원으로도 뛰어난 성능을 달성하였다. 더불어 TSMixer는 모듈형 설계를 통해 감독 학습과 마스크된 자기지도 학습(masked self-supervised learning) 방법 모두와 호환 가능하며, 시계열 기반 기초 모델(Foundation Models)의 핵심 구성 요소로 유망한 후보가 되었다. 실험 결과, TSMixer는 최신의 MLP 및 트랜스포머 기반 모델보다 예측 성능에서 8~60%의 상당한 성능 향상을 보였으며, Patch-Transformer 기반 최신 강력한 벤치마크보다도 1~2%의 성능 우위를 기록하면서도 메모리 사용량과 실행 시간이 2~3배 감소하는 데 성공하였다. 본 연구의 모델 소스 코드는 HuggingFace에 공식적으로 배포되었으며, PatchTSMixer로 제공된다. 모델 문서: https://huggingface.co/docs/transformers/main/ko/model_doc/patchtsmixer 예제: https://github.com/ibm/tsfm/#notebooks-links