
초록
CNN, RNN에서부터 ViT에 이르기까지, 보조 입력을 활용하고 복잡한 신경망 아키텍처 및 정교한 학습 전략을 도입함으로써 영상 예측 분야는 놀라운 발전을 이뤘다. 이러한 진전들을 존중하면서도 우리는 그 필요성에 대해 혼란을 느낀다. 과연 간단한 방법으로도 뛰어난 성능을 달성할 수 있을까? 본 논문은 단순한 CNN 기반의 영상 예측 모델인 SimVP를 제안한다. SimVP는 끝에서 끝까지 MSE 손실 함수를 이용해 엔드투엔드 방식으로 학습되며, 추가적인 기법이나 복잡한 전략 없이도 다섯 개의 벤치마크 데이터셋에서 최첨단 성능을 달성한다. 확장된 실험을 통해 SimVP가 실세계 데이터셋에서 뛰어난 일반화 능력과 확장성을 갖추고 있음을 입증하였다. 학습 비용의 급격한 감소는 복잡한 시나리오로의 확장이 더욱 용이하게 만든다. 우리는 SimVP가 영상 예측 기술의 향후 발전을 촉진할 수 있는 견고한 기준 모델이 될 것이라 믿는다. 코드는 \href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{Github}에서 제공된다.