9 天前

无循环或卷积的视频预测Transformer

Yujin Tang, Lu Qi, Fei Xie, Xiangtai Li, Chao Ma, Ming-Hsuan Yang
无循环或卷积的视频预测Transformer
摘要

视频预测领域已涌现出基于RNN的模型(以ConvLSTM为代表)和基于CNN的模型(以SimVP为代表)。在视觉Transformer(ViT)取得显著成功之后,近期研究将ViT引入RNN与CNN框架中,进一步提升了模型性能。尽管我们认可这些先前方法的贡献,但仍提出一个根本性问题:是否存在一种更简单却更有效的解决方案,能够在消除RNN高计算开销的同时,克服CNN感受野有限与泛化能力不足的局限?一个纯粹的Transformer模型在视频预测任务中究竟能达到何种程度?本文提出PredFormer,一种完全基于门控Transformer(Gated Transformers)的全新框架。我们对视频预测任务中3D注意力机制进行了系统性分析。大量实验表明,PredFormer在四个标准基准上均达到了当前最优性能。其在准确率与效率上的显著提升,充分展现了PredFormer作为真实应用场景下视频预测任务强大基线模型的巨大潜力。项目源代码与训练好的模型将开源发布于:https://github.com/yyyujintang/PredFormer。