1 个月前

扩展自回归视频模型

Dirk Weissenborn; Oscar Täckström; Jakob Uszkoreit
扩展自回归视频模型
摘要

由于视频的统计复杂性、固有的高随机性和庞大的数据量,生成自然视频仍然是一个具有挑战性的任务。当前最先进的视频生成模型通常通过结合有时复杂的、通常是特定于视频的神经网络架构、潜在变量模型、对抗训练以及其他多种方法来解决这些问题。尽管这些方法往往非常复杂,但在狭窄领域之外生成高质量视频延续方面仍存在不足,且在保真度方面常常遇到困难。相比之下,我们展示了基于三维自注意力机制的概念上简单的自回归视频生成模型,在多个指标上达到了流行基准数据集上的竞争性结果,这些模型能够生成高保真度和真实感的视频延续。我们还在大规模动作识别数据集Kinetics(包含展示相机移动、复杂物体交互和多样化人体运动现象的YouTube视频)上训练了我们的模型。虽然一致地建模这些现象仍然难以实现,但我们希望我们的研究结果,包括偶尔出现的真实感延续,能够鼓励对类似Kinetics这样相对复杂的大规模数据集进行进一步的研究。

扩展自回归视频模型 | 最新论文 | HyperAI超神经