9日前

VQVAEを用いた動画予測

Jacob Walker, Ali Razavi, Aäron van den Oord
VQVAEを用いた動画予測
要約

近年、過去の映像フレームから将来の映像を予測する「動画予測」の課題が研究コミュニティにおいて注目を集めている。本論文では、ベクトル量子化変分オートエンコーダー(VQ-VAE)を用いた新しいアプローチを提案する。VQ-VAEを用いることで、高解像度の映像を階層的で多スケールの離散潜在変数の集合に圧縮する。ピクセル表現と比較して、この圧縮された潜在空間は次元数が著しく削減されており、スケーラブルな自己回帰的生成モデルを適用して映像予測が可能となる。従来の研究が主に制約の強いデータセットに焦点を当てていたのに対し、本研究ではKinetics-600など多様性が高く大規模なデータセットに注目する。これまでの手法において知られている範囲で、制約のない映像に対して256×256というより高い解像度で映像を予測する。さらに、クラウドソーシングによる人間評価を通じて、既存の手法との比較検証を実施し、本手法の有効性を検証した。