8 天前
VideoGPT:基于VQ-VAE与Transformer的视频生成
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas

摘要
我们提出 VideoGPT:一种概念简洁的架构,可将基于似然的生成建模方法扩展至自然视频生成。VideoGPT 采用 VQ-VAE 模型,通过使用三维卷积和轴向自注意力机制,学习原始视频的下采样离散潜在表示。随后,利用一种类似 GPT 的简单架构,结合时空位置编码,对这些离散潜在变量进行自回归建模。尽管该架构在形式上简洁且易于训练,但在 BAIR 机器人数据集上生成的视频样本已达到与当前最先进的 GAN 模型相媲美的水平;同时,它还能从 UCF-101 和 Tumbler GIF 数据集(TGIF)中生成高质量、高保真的自然视频。我们期望所提出的架构能为基于 Transformer 的视频生成模型提供一个可复现的最小化实现参考。相关样本与代码已公开,详见:https://wilson1yan.github.io/videogpt/index.html