9일 전

반복 또는 컨볼루션 없이 영상 예측을 위한 트랜스포머

Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang
반복 또는 컨볼루션 없이 영상 예측을 위한 트랜스포머
초록

비디오 예측 분야에서는 ConvLSTM을 대표로 하는 RNN 기반 모델과 SimVP를 대표로 하는 CNN 기반 모델이 등장하였으며, ViT의 두드러진 성공을 계기로 최근 연구들은 ViT를 RNN 및 CNN 아키텍처에 통합하여 성능을 향상시켰다. 이러한 기존 접근법들에 대한 감사를 표하면서도, 우리는 핵심적인 질문을 제기한다. RNN의 높은 계산 비용을 제거하면서도 CNN의 제한된 수용 필드와 낮은 일반화 능력을 극복할 수 있는, 더 단순하지만 더 효과적인 해결책은 존재하는가? 단순한 순수 트랜스포머 모델로 비디오 예측 문제에 얼마나 깊이까지 접근할 수 있을까? 본 논문에서는 게이트드 트랜스포머(Gated Transformers)에 기반한 완전히 새로운 프레임워크인 PredFormer을 제안한다. 우리는 비디오 예측 맥락에서 3D 어텐션의 특성을 체계적으로 분석한다. 광범위한 실험을 통해 PredFormer이 네 가지 표준 벤치마크에서 최신 기준(SOTA) 성능을 달성함을 입증하였다. 정확도와 효율성 모두에서 두드러진 개선을 보인 결과는 PredFormer이 실세계 비디오 예측 응용에 있어 강력한 기준 모델이 될 잠재력을 보여준다. 소스 코드 및 학습된 모델은 https://github.com/yyyujintang/PredFormer 에 공개될 예정이다.

반복 또는 컨볼루션 없이 영상 예측을 위한 트랜스포머 | 최신 연구 논문 | HyperAI초신경