AutoTimes: 대규모 언어 모델을 통한 자동 회귀 시계열 예측기

시계열 기반의 기초 모델은 시계열 코퍼스의 제한적인 가용성과 확장 가능한 사전 훈련에 대한 탐색 부족으로 인해 완전히 개발되지 못했다. 시계열과 자연어가 유사한 순차적 구조를 가지고 있다는 점을 바탕으로, 최근 연구들은 대규모 언어 모델(Large Language Model, LLM)을 시계열 분석에 활용하는 것이 가능함을 보여주고 있다. 그러나 LLM의 본질적인 자기회귀적 특성과 디코더 전용 아키텍처가 충분히 고려되지 않아, LLM의 능력이 제대로 활용되지 못하고 있다. 대규모 언어 모델의 일반적인 토큰 전이 및 다단계 생성 능력을 완전히 발휘하기 위해, 본 연구에서는 AutoTimes를 제안한다. AutoTimes는 시계열 데이터를 언어 토큰의 임베딩 공간으로 매핑하고, 임의 길이의 미래 예측을 자기회귀적으로 생성함으로써 LLM을 자기회귀적 시계열 예측 모델로 재활용한다. 이 방법은 어떤 디코더 전용 LLM과도 호환되며, 과거 관측 길이(lookback length)의 유연성과 더 큰 LLM을 활용한 확장성 또한 갖추고 있다. 또한, 시계열을 프롬프트로 정의함으로써 예측을 과거 관측 윈도우를 넘어서는 컨텍스트 내에서 수행할 수 있도록 확장한 ‘컨텍스트 내 예측(in-context forecasting)’을 제안한다. 특히, LLM에 내장된 텍스트 기반 시각 정보(timestamps)를 도입함으로써, 다변량 시계열 간의 시간적 일치를 효과적으로 조정할 수 있다. 실험 결과, AutoTimes는 최신 LLM 기반 예측 모델 대비 학습 및 추론 속도에서 5배 이상 향상되고, 가용 파라미터의 0.1%만을 학습 가능하면서도 최고 수준의 성능을 달성하였다. 코드는 다음 저장소에서 확인할 수 있다: https://github.com/thuml/AutoTimes.