Latte 世界初のオープンソース Vincent ビデオ DiT
紙 | プロジェクトページ
プロジェクト紹介
Sora のリリースが成功したことにより、ビデオ DiT モデルは多くの注目と議論を集めました。安定した超大規模ニューラル ネットワークの設計は、常にビジュアル生成分野の研究の焦点であり、DiT の成功により、Latte (Latent Diffusion Transformer for Video Generation) がオープンソースで利用できるようになりました。ビデオ生成の革新的なモデルである Latte は、世界初のオープンソースの Vincent ビデオ DiT として有望な結果を達成しました。
このチュートリアルでは、Latte プロジェクトのエフェクトの実装を示します。
エフェクト表示

チュートリアル
Latteを使用したカスタムテキストからビデオへの生成
1. コンテナーのクローンを作成して実行します
2. ワークスペースを開き、テキスト プロンプトを設定します
左側のプロフィールを開きます home/Latte/configs/t2v/t2v_sample.yaml
をダブルクリックして開き、text_prompt の下のテキストを変更します。この記事では、以下に示すように、関連する例を示しています。変更完了後 ctrl+S
保存。

3. ビデオを生成する
ターミナルを開いて次のように入力します。cd Latte/
ディレクトリを切り替え、
ターミナルに次のように入力します。bash sample/t2v.sh
高解像度ビデオを生成し、プログラムの実行が完了するのを待って、 Latte/sample_videos
ディレクトリに結果を生成します。t2v_0000-.mp4 はプロンプト テキストの合計ビデオであり、他の .mp4 ファイルは 1 つのプロンプトによって生成されたビデオです。
注: 生成されたビデオはコンテナ内で直接表示することはできません。ローカルで表示するには、ファイルを右クリックしてビデオをダウンロードする必要があります。
その他のコード情報
ラテ推論コード
Latte は、4 つの標準的なビデオ生成データセット (つまり、FaceForensics、SkyTimelapse、UCF101、および Taichi-HD) でトレーニングすることにより 4 つのモデルを取得できます。各モデルは、対応するシーンのビデオを生成します。操作は以下で説明されます。まず、プロジェクトに入り、ターミナルに次のように入力します。cd Latte/
1. FaceForensics: 顔合成画像検出
ターミナルに次のように入力します。bash sample/ffs.sh
顔を生成するには、プログラム終了後、左側の Latte/test_ffs
ディレクトリ内で生成された結果を確認します。
注: 生成された各結果は、以前の結果を上書きします。
2. SkyTimelapse: 空の写真画像
ターミナルに次のように入力します。bash sample/sky.sh
空を生成するには、プログラム終了後、左側を通過します。 Latte/test_sky
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。
3. UCF101: リアルなアクションビデオのアクション認識
ターミナルに次のように入力します。bash sample/ucf101.sh
現実的なアクションを生成するには、プログラムの終了後に、 Latte/test_UCF101
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。
4. Taichi-HD ビデオの生成。
ターミナルに次のように入力します。bash sample/taichi.sh
高解像度ビデオを生成するには、プログラム終了後、左側の Latte/test_Taichi
ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。