Sora のリリースが成功したことにより、ビデオ DiT モデルは多くの注目と議論を集めました。安定した超大規模ニューラル ネットワークの設計は、常にビジュアル生成分野の研究の焦点であり、DiT の成功により、Latte (Latent Diffusion Transformer for Video Generation) がオープンソースで利用できるようになりました。ビデオ生成の革新的なモデルである Latte は、世界初のオープンソースの Vincent ビデオ DiT として有望な結果を達成しました。
このチュートリアルでは、Latte プロジェクトのエフェクトの実装を示します。
1. コンテナーのクローンを作成して実行します
2. ワークスペースを開き、テキスト プロンプトを設定します
左側のプロフィールを開きます home/Latte/configs/t2v/t2v_sample.yaml
をダブルクリックして開き、text_prompt の下のテキストを変更します。この記事では、以下に示すように、関連する例を示しています。変更完了後 ctrl+S
保存。
3. ビデオを生成する
ターミナルを開いて次のように入力します。cd Latte/
ディレクトリを切り替え、
ターミナルに次のように入力します。bash sample/t2v.sh
高解像度ビデオを生成し、プログラムの実行が完了するのを待って、 Latte/sample_videos
ディレクトリに結果を生成します。t2v_0000-.mp4 はプロンプト テキストの合計ビデオであり、他の .mp4 ファイルは 1 つのプロンプトによって生成されたビデオです。
Latte は、4 つの標準的なビデオ生成データセット (つまり、FaceForensics、SkyTimelapse、UCF101、および Taichi-HD) でトレーニングすることにより 4 つのモデルを取得できます。各モデルは、対応するシーンのビデオを生成します。操作は以下で説明されます。まず、プロジェクトに入り、ターミナルに次のように入力します。cd Latte/
ターミナルに次のように入力します。bash sample/ffs.sh
顔を生成するには、プログラム終了後、左側の Latte/test_ffs
ディレクトリ内で生成された結果を確認します。
ターミナルに次のように入力します。bash sample/sky.sh
空を生成するには、プログラム終了後、左側を通過します。 Latte/test_sky
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。
ターミナルに次のように入力します。bash sample/ucf101.sh
現実的なアクションを生成するには、プログラムの終了後に、 Latte/test_UCF101
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。
ターミナルに次のように入力します。bash sample/taichi.sh
高解像度ビデオを生成するには、プログラム終了後、左側の Latte/test_Taichi
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。