Latte 世界初のオープンソース Vincent ビデオ DiT

 | プロジェクトページ

プロジェクト紹介

Sora のリリースが成功したことにより、ビデオ DiT モデルは多くの注目と議論を集めました。安定した超大規模ニューラル ネットワークの設計は、常にビジュアル生成分野の研究の焦点であり、DiT の成功により、Latte (Latent Diffusion Transformer for Video Generation) がオープンソースで利用できるようになりました。ビデオ生成の革新的なモデルである Latte は、世界初のオープンソースの Vincent ビデオ DiT として有望な結果を達成しました。

このチュートリアルでは、Latte プロジェクトのエフェクトの実装を示します。

エフェクト表示

1

チュートリアル

Latteを使用したカスタムテキストからビデオへの生成

1. コンテナーのクローンを作成して実行します

2. ワークスペースを開き、テキスト プロンプトを設定します

左側のプロフィールを開きます home/Latte/configs/t2v/t2v_sample.yamlをダブルクリックして開き、text_prompt の下のテキストを変更します。この記事では、以下に示すように、関連する例を示しています。変更完了後 ctrl+S  保存。

2

3. ビデオを生成する

ターミナルを開いて次のように入力します。cd Latte/  ディレクトリを切り替え、

ターミナルに次のように入力します。bash sample/t2v.sh  高解像度ビデオを生成し、プログラムの実行が完了するのを待って、 Latte/sample_videos  ディレクトリに結果を生成します。t2v_0000-.mp4 はプロンプト テキストの合計ビデオであり、他の .mp4 ファイルは 1 つのプロンプトによって生成されたビデオです。

注: 生成されたビデオはコンテナ内で直接表示することはできません。ローカルで表示するには、ファイルを右クリックしてビデオをダウンロードする必要があります。

その他のコード情報

ラテ推論コード

Latte は、4 つの標準的なビデオ生成データセット (つまり、FaceForensics、SkyTimelapse、UCF101、および Taichi-HD) でトレーニングすることにより 4 つのモデルを取得できます。各モデルは、対応するシーンのビデオを生成します。操作は以下で説明されます。まず、プロジェクトに入り、ターミナルに次のように入力します。cd Latte/

1. FaceForensics: 顔合成画像検出

ターミナルに次のように入力します。bash sample/ffs.sh

顔を生成するには、プログラム終了後、左側の Latte/test_ffs ディレクトリ内で生成された結果を確認します。

注: 生成された各結果は、以前の結果を上書きします。

2. SkyTimelapse: 空の写真画像

ターミナルに次のように入力します。bash sample/sky.sh

空を生成するには、プログラム終了後、左側を通過します。 Latte/test_sky ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。

3. UCF101: リアルなアクションビデオのアクション認識

ターミナルに次のように入力します。bash sample/ucf101.sh

現実的なアクションを生成するには、プログラムの終了後に、 Latte/test_UCF101  ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。

4. Taichi-HD ビデオの生成。

ターミナルに次のように入力します。bash sample/taichi.sh

高解像度ビデオを生成するには、プログラム終了後、左側の Latte/test_Taichi  ディレクトリに結果を生成し、ローカル コンピュータにダウンロードして表示します。