HyperAI超神経

LTX-Video: 超高速ビデオ生成 V2

1. チュートリアルの概要

LTX-Video の ltxv-13b-0.9.7-distilled は、Lightricks が 2025 年 5 月 14 日にリリースした蒸留モデルの最新バージョンです。このモデルは、トランスフォーマーと Video-VAE テクノロジを使用して、高解像度のビデオを効率的に生成します。 Nvidia H100 GPU でわずか 2 秒で 768×512 解像度の 5 秒間の 24 fps ビデオを生成し、同様の規模の既存のモデルをすべて上回りました。さらに、LTX-Video は、テキストからビデオ、画像からビデオ、拡張ビデオ、複数の条件によるビデオ生成など、複数のビデオ生成方法をサポートしています。関連する論文の結果は以下の通りである。LTX-Video: リアルタイムビデオ潜在拡散”。

このチュートリアルでは、単一の A6000 コンピューティング リソースを使用し、テスト用にテキストからビデオへの生成と画像からビデオへの生成の 2 つの例を示します。

2. エフェクト表示

テキストからビデオへ:

画像からビデオへ:

3. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2. 使用例

プロンプトは英語のみをサポートします。

1. 画像から動画へ

具体的なパラメータ:

  • 画像のアップロード: ここで、ビデオ生成の開始点として画像をアップロードできます。
  • プロンプト: ここでビデオの内容を説明するテキストを入力すると、モデルはこのテキストに基づいてビデオを生成します。
  • ビデオの長さ: 生成されるビデオの長さを選択します。
  • ネガティブプロンプト: ここでは、ビデオに表示したくない要素や機能を入力できます。これにより、望ましくない効果の生成を回避できます。
  • シード: この数値はビデオ生成のランダム性を決定します。
  • ガイダンス スケール (CFG): プロンプトが出力にどの程度影響を与えるかを制御します。値が大きいほど影響が大きくなります。
  • 高さ: 高さ。32 で割り切れる必要があります。
  • 幅: 幅。32 で割り切れる必要があります。

結果 

2. テキストからビデオへ

具体的なパラメータ:

  • プロンプト: ここでビデオの内容を説明するテキストを入力すると、モデルはこのテキストに基づいてビデオを生成します。
  • ビデオの長さ: 生成されるビデオの長さを選択します。
  • ネガティブプロンプト: ここでは、ビデオに表示したくない要素や機能を入力できます。これにより、望ましくない効果の生成を回避できます。
  • シード: この数値はビデオ生成のランダム性を決定します。
  • ガイダンス スケール (CFG): プロンプトが出力にどの程度影響を与えるかを制御します。値が大きいほど影響が大きくなります。
  • 高さ: 高さ。32 で割り切れる必要があります。
  • 幅: 幅。32 で割り切れる必要があります。

結果出力

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{HaCohen2024LTXVideo,
  title={LTX-Video: Realtime Video Latent Diffusion},
  author={HaCohen, Yoav and Chiprut, Nisan and Brazowski, Benny and Shalem, Daniel and Moshe, Dudu and Richardson, Eitan and Levin, Eran and Shiran, Guy and Zabari, Nir and Gordon, Ori and Panet, Poriya and Weissbuch, Sapir and Kulikov, Victor and Bitterman, Yaki and Melumian, Zeev and Bibi, Ofir},
  journal={arXiv preprint arXiv:2501.00103},
  year={2024}
}