15일 전

PatchMixer: 장기 시계열 예측을 위한 패치 믹싱 아키텍처

Zeying Gong, Yujin Tang, Junwei Liang
PatchMixer: 장기 시계열 예측을 위한 패치 믹싱 아키텍처
초록

최근 몇 년간 트랜스포머(Transformer)는 시계열 예측 과제에서 주도적인 아키텍처로 자리 잡았지만, 근본적인 도전 과제가 여전히 남아 있다. 바로 트랜스포머 내부의 순열 불변성(self-attention)을 가진 자기 주목 메커니즘이 시계열 정보의 시간적 구조를 상실하게 한다는 점이다. 이러한 문제를 해결하기 위해 우리는 새로운 CNN 기반 모델인 PatchMixer를 제안한다. 이 모델은 시간적 정보를 유지하기 위해 순열 의존성(permutation-variant)을 갖춘 컨볼루션 구조를 도입한다. 기존의 이 분야에서 흔히 사용되는 다중 스케일 또는 다수의 브랜치를 사용하는 전통적인 CNN과 달리, 본 연구는 깊이 분리형 컨볼루션(depthwise separable convolutions)에만 의존한다. 이를 통해 단일 스케일 아키텍처로 국소적 특징과 전역 상관관계를 동시에 추출할 수 있다. 더불어, 향후 시계열 곡선의 추세와 세부 정보를 보다 정확히 모델링하기 위해 선형 및 비선형 성분을 포함하는 이중 예측 헤드(dual forecasting heads)를 활용한다. 일곱 개의 시계열 예측 벤치마크에서 수행한 실험 결과, 최신 기술(SOTA) 방법 및 가장 성능이 뛰어난 CNN 대비 각각 3.9%, 21.2%의 상대적 성능 향상을 달성하였으며, 동시에 가장 최신 기법보다 2~3배 빠른 속도를 기록하였다.