8日前

Make-A-Video:テキスト・ビデオデータを用いないテキストからビデオ生成

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman
Make-A-Video:テキスト・ビデオデータを用いないテキストからビデオ生成
要約

我々は、テキストから画像(T2I)生成分野における近年の著しい進展を、テキストから動画(T2V)生成に直接転用するための手法「Make-A-Video」を提案する。このアプローチの直感的な根拠は、ペア化されたテキスト-画像データから世界の外観とその記述方法を学び、未教師ありの動画データから世界の動きの様式を学ぶことにある。Make-A-Videoには以下の3つの利点がある:(1)T2Vモデルの学習を高速化できる(視覚的およびマルチモーダル表現をゼロから学習する必要がない)、(2)ペア化されたテキスト-動画データを必要としない、(3)生成される動画は、現代の画像生成モデルが持つ広大な多様性(美的表現、幻想的描写の多様性など)を引き継ぐことができる。本研究では、新たな空間-時系列モジュールを導入し、既存のT2Iモデルを効果的に拡張するシンプルかつ有効な手法を設計した。まず、全時系列U-Netおよびアテンションテンソルを空間的・時系列的に分解し、それぞれの次元で近似を行う。次に、動画デコーダ、補間モデル、および2つの超解像モデルを組み合わせた空間-時系列パイプラインを構築することで、高解像度かつ高フレームレートの動画生成を実現した。このパイプラインはT2V生成以外にも多様な応用が可能な機能を備えている。質的・量的評価の両面から検証した結果、空間的・時系列的解像度、テキスト忠実性、品質のすべての観点において、Make-A-Videoはテキストから動画生成分野における新たな最良の性能(SOTA: State-of-the-Art)を達成している。

Make-A-Video:テキスト・ビデオデータを用いないテキストからビデオ生成 | 最新論文 | HyperAI超神経