9日前

再帰性または畳み込みを用いない動画予測Transformer

Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang

要約

動画予測分野では、ConvLSTMを代表とするRNNベースのモデルと、SimVPを代表とするCNNベースのモデルが登場してきました。ViT（Vision Transformer）の著しい成功を受けて、近年の研究ではViTがRNNおよびCNNの枠組みに統合され、性能の向上が達成されています。これらの先行研究に感謝しつつも、我々は根本的な問いを提起します：RNNの高い計算コストを排除しつつ、CNNの受容 field の制限および一般化能力の低さを克服できる、より単純かつ効果的な解決策は存在するだろうか？単純な純粋なTransformerモデルは、動画予測においてどれほどまで性能を発揮できるのか？本論文では、ゲート付きTransformer（Gated Transformers）に完全に基づくフレームワークであるPredFormerを提案する。我々は、動画予測の文脈における3D Attentionの包括的な分析を提供する。広範な実験により、PredFormerが4つの標準ベンチマークにおいて最先端の性能を達成することが示された。精度と効率の両面で顕著な向上が確認されたことから、PredFormerが実用的な動画予測応用における強力なベースラインとしての可能性を示している。ソースコードおよび学習済みモデルは、https://github.com/yyyujintang/PredFormer にて公開される予定である。