HyperAIHyperAI

Command Palette

Search for a command to run...

再帰性または畳み込みを用いない動画予測Transformer

Yujin Tang Lu Qi Fei Xie Xiangtai Li Chao Ma Ming-Hsuan Yang

概要

動画予測分野では、ConvLSTMを代表とするRNNベースのモデルと、SimVPを代表とするCNNベースのモデルが登場してきました。ViT(Vision Transformer)の著しい成功を受けて、近年の研究ではViTがRNNおよびCNNの枠組みに統合され、性能の向上が達成されています。これらの先行研究に感謝しつつも、我々は根本的な問いを提起します:RNNの高い計算コストを排除しつつ、CNNの受容 field の制限および一般化能力の低さを克服できる、より単純かつ効果的な解決策は存在するだろうか?単純な純粋なTransformerモデルは、動画予測においてどれほどまで性能を発揮できるのか?本論文では、ゲート付きTransformer(Gated Transformers)に完全に基づくフレームワークであるPredFormerを提案する。我々は、動画予測の文脈における3D Attentionの包括的な分析を提供する。広範な実験により、PredFormerが4つの標準ベンチマークにおいて最先端の性能を達成することが示された。精度と効率の両面で顕著な向上が確認されたことから、PredFormerが実用的な動画予測応用における強力なベースラインとしての可能性を示している。ソースコードおよび学習済みモデルは、https://github.com/yyyujintang/PredFormer にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています