2달 전
시계열 예측에서 Transformer의 지역성 향상과 메모리 병목 현상 해소
Shiyang Li; Xiaoyong Jin; Yao Xuan; Xiyou Zhou; Wenhu Chen; Yu-Xiang Wang; Xifeng Yan

초록
시계열 예측은 태양광 발전소의 에너지 출력, 전력 소비량, 교통 체증 상황 등 다양한 분야에서 중요한 문제입니다. 본 논문에서는 이러한 시계열 예측 문제를 Transformer [1]을 사용하여 해결하는 방법을 제안합니다. 초기 연구에서 그 성능에 깊은 인상을 받았지만, 두 가지 주요 약점을 발견하였습니다: (1) 지역성 무관: 표준 Transformer 구조에서 포인트별 내적 자기 주의 메커니즘(point-wise dot-product self-attention)은 지역 문맥에 대해 불감각적이어서 시계열 데이터에서 이상치에 취약할 수 있습니다; (2) 메모리 병목 현상: 표준 Transformer의 공간 복잡도는 시퀀스 길이 $L$에 따라 이차적으로 증가하므로, 긴 시계열을 직접 모델링하는 것이 어려워집니다.이 두 가지 문제를 해결하기 위해 먼저 인과적 컨볼루션(causal convolution)을 통해 쿼리와 키를 생성하여 지역 문맥을 더 잘 통합할 수 있는 컨볼루셔널 자기 주의 메커니즘(convolutional self-attention)을 제안합니다. 다음으로, $O(L(\log L)^{2})$의 메모리 비용만으로 동작하는 LogSparse Transformer를 제안하여 세밀한 간격(granularity)과 강한 장기 의존성이 있는 시계열 데이터의 예측 정확도를 제한된 메모리 예산 하에서 개선합니다. 합성 데이터와 실제 데이터셋 모두에서 수행한 실험 결과, 본 방법론이 최신 기술들과 비교해 유리함을 보였습니다.