
要約
動画生成タスクは、過去のフレームをもとに将来のフレームを予測する問題として定式化できる。近年の動画生成モデルは、高い計算リソースを要するという課題に直面している。一部のモデルでは、並列学習に最大で512個のTensor Processing Unit(TPU)を必要とする場合もある。本研究では、潜在空間(latent space)における動的挙動をモデル化することでこの課題に取り組む。映像フレームを潜在空間に変換した後、モデルは自己回帰的(autoregressive)な手法により次のフレームの潜在表現を予測する。本手法の有効性をBAIR Robot PushingおよびKinetics-600データセット上で実証した。その結果、モデルの学習に必要なリソースを従来の要件から8個のグラフィックス処理ユニット(GPU)まで削減しつつ、同等の生成品質を維持できることを示した。