9일 전
SwinLSTM: Swin Transformer와 LSTM을 활용한 시공간 예측 정확도 향상
{RongNian Tang, Pu Zhang, Chuang Li, Song Tang}

초록
시공간 예측 과제에서 CNN과 RNN을 통합하여 시공간적 의존성을 포착하는 것은 일반적인 전략이다. 그러나 CNN이 국소적인 공간 정보를 학습하는 특성은 시공간적 의존성을 포착하는 데 있어 효율성을 저하시켜 예측 정확도에 제한을 초래한다. 본 논문에서는 Swin Transformer 블록과 간소화된 LSTM을 통합한 새로운 순환 셀인 SwinLSTM을 제안한다. 이는 ConvLSTM의 컨볼루션 구조를 자기주의(self-attention) 메커니즘으로 대체한 확장 기법이다. 또한, SwinLSTM 셀을 핵심으로 하는 시공간 예측을 위한 네트워크를 구축하였다. 특별한 트릭 없이도 SwinLSTM은 Moving MNIST, Human3.6m, TaxiBJ, KTH 데이터셋에서 최신 기술(SOTA) 방법들을 초월하는 성능을 보였다. 특히 ConvLSTM에 비해 예측 정확도에서 두드러진 향상을 보였다. 경쟁적인 실험 결과를 통해, 모델이 전역적인 공간적 의존성을 학습하는 것이 시공간적 의존성을 효과적으로 포착하는 데 더 유리함을 입증하였다. 본 연구가 SwinLSTM이 시공간 예측 정확도 향상을 위한 견고한 기준 모델로 활용되기를 기대한다. 코드는 공개적으로 제공되며, https://github.com/SongTang-x/SwinLSTM 에서 확인할 수 있다.