8日前

タイム無差別VQGANとタイム感受性Transformerを用いた長時間動画生成

Songwei Ge, Thomas Hayes, Harry Yang, Xi Yin, Guan Pang, David Jacobs, Jia-Bin Huang, Devi Parikh
タイム無差別VQGANとタイム感受性Transformerを用いた長時間動画生成
要約

動画は感情の表現、情報の共有、経験の伝達を目的として作成される。近年、ビジュアル合成技術の進展に伴い、動画合成に関する研究は著しい進展を遂げてきた。しかし、既存の多くはフレームの品質やフレーム間の遷移の改善に焦点を当てており、長時間の動画生成についてはほとんど進展が見られない状況にある。本論文では、3D-VQGANとトランスフォーマーを基盤とした手法を提示し、数千フレームに及ぶ長時間動画の生成を可能にする。評価の結果、UCF-101、Sky Time-lapse、Taichi-HDといった標準的なベンチマークデータセットから抽出した16フレームの動画クリップを用いて学習したモデルが、多様性に富み、一貫性があり、高品質な長時間動画を生成できることを示した。さらに、テキストや音声といった時間情報を組み合わせることで、意味ある長時間動画を生成可能な条件付き拡張も提案している。動画およびコードは、https://songweige.github.io/projects/tats/index.html で公開されている。

タイム無差別VQGANとタイム感受性Transformerを用いた長時間動画生成 | 最新論文 | HyperAI超神経