
摘要
从CNN、RNN到ViT,视频预测领域经历了显著的技术进步,其发展融合了辅助输入、复杂的神经网络架构以及精巧的训练策略。我们对这些进展深表钦佩,但同时也产生了一个疑问:是否存在一种更为简洁的方法,同样能够取得优异的性能?本文提出了SimVP——一种完全基于CNN构建、采用均方误差(MSE)损失函数进行端到端训练的简单视频预测模型。在不引入任何额外技巧或复杂策略的前提下,SimVP在五个基准数据集上均达到了当前最先进的性能。通过一系列扩展实验,我们验证了SimVP在真实世界数据集上具备出色的泛化能力与可扩展性。同时,训练成本的显著降低使其更易于扩展至复杂应用场景。我们相信,SimVP可作为视频预测领域的一个坚实基线,推动该方向的进一步研究与发展。代码已开源,访问地址为:\href{https://github.com/gaozhangyang/SimVP-Simpler-yet-Better-Video-Prediction}{GitHub}。