8日前
VideoGPT:VQ-VAE と Transformers を用いた動画生成
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas

要約
本稿では、自然な動画にスケーラブルな尤度ベースの生成モデルを構築するための概念的に単純なアーキテクチャ「VideoGPT」を提案する。VideoGPTは、3次元畳み込みと軸方向自己注意(axial self-attention)を用いて、元の動画のダウンサンプリングされた離散的潜在表現を学習するVQ-VAEを採用している。その後、空間時間的位置エンコーディングを用いて、離散的潜在変数を自己回帰的にモデル化する、シンプルなGPT型のアーキテクチャを適用している。構成の単純さと学習の容易さにもかかわらず、BAIR Robotデータセットにおいて最先端のGANモデルと競合する品質の動画サンプルを生成でき、UCF-101およびTumbler GIF Dataset(TGIF)から高忠実度の自然動画も生成可能である。本研究で提案するアーキテクチャが、Transformerベースの動画生成モデルの最小限の実装を再現可能な基準として役立つことを期待する。サンプルおよびコードは、https://wilson1yan.github.io/videogpt/index.html にて公開されている。