9일 전
반복 또는 컨볼루션 없이 영상 예측을 위한 트랜스포머
Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang

초록
비디오 예측 분야에서는 ConvLSTM을 대표로 하는 RNN 기반 모델과 SimVP를 대표로 하는 CNN 기반 모델이 등장하였으며, ViT의 두드러진 성공을 계기로 최근 연구들은 ViT를 RNN 및 CNN 아키텍처에 통합하여 성능을 향상시켰다. 이러한 기존 접근법들에 대한 감사를 표하면서도, 우리는 핵심적인 질문을 제기한다. RNN의 높은 계산 비용을 제거하면서도 CNN의 제한된 수용 필드와 낮은 일반화 능력을 극복할 수 있는, 더 단순하지만 더 효과적인 해결책은 존재하는가? 단순한 순수 트랜스포머 모델로 비디오 예측 문제에 얼마나 깊이까지 접근할 수 있을까? 본 논문에서는 게이트드 트랜스포머(Gated Transformers)에 기반한 완전히 새로운 프레임워크인 PredFormer을 제안한다. 우리는 비디오 예측 맥락에서 3D 어텐션의 특성을 체계적으로 분석한다. 광범위한 실험을 통해 PredFormer이 네 가지 표준 벤치마크에서 최신 기준(SOTA) 성능을 달성함을 입증하였다. 정확도와 효율성 모두에서 두드러진 개선을 보인 결과는 PredFormer이 실세계 비디오 예측 응용에 있어 강력한 기준 모델이 될 잠재력을 보여준다. 소스 코드 및 학습된 모델은 https://github.com/yyyujintang/PredFormer 에 공개될 예정이다.