Pusa-VidGen ビデオ生成モデルのデモ

1. チュートリアルの概要

星

Pusa V1は、2025年7月25日にYaofang-Liuチームによって提案された効率的なマルチモーダル動画生成モデルです。ベクトル化タイムステップ適応(VTA)に基づいており、従来の動画生成モデルの核心的な問題である、高いトレーニングコスト、低い推論効率、低い時間的一貫性といった問題を解決します。大量のデータと計算能力に依存する従来の方法とは異なり、Pusa V1は、軽量な微調整戦略を通じて、Wan2.1-T2V-14Bに基づく画期的な最適化を実現します。トレーニングコストはわずか500ドル(類似モデルの200分の1)、データセットに必要なサンプル数はわずか4K(類似モデルの2500分の1)です。トレーニングは80GBのGPU 8基で完了できるため、動画生成技術の参入障壁を大幅に下げることができます。さらに、強力なマルチタスク機能を誇り、テキスト駆動型ビデオ(T2V)と画像駆動型ビデオ(I2V)だけでなく、ビデオ補完、最初と最後のフレーム生成、シーン間遷移などのゼロショットタスクもサポートし、シーン固有の追加トレーニングが不要です。さらに重要なのは、その生成性能が特に優れていることです。数ステップ推論戦略を採用し(10ステップでベースラインモデルを上回る)、VBench-I2Vの総合スコアは87.32%に達し、動的なディテール復元(手足の動き、光と影の変化など)と時間的な一貫性において優れた性能を発揮します。さらに、VTA技術によって実現された非破壊適応メカニズムは、基本モデルに時間的な動的機能を注入するだけでなく、元のモデルの画像生成品質を維持し、「1+1>2」の効果を実現します。展開レベルでは推論のレイテンシが低く、高速プレビューから高解像度出力まで多様なニーズに対応でき、クリエイティブデザインや短編動画制作などのシナリオに適しています。関連論文の結果は「 PUSA V1.0: ベクトル化されたタイムステップ適応により、$500 のトレーニングコストで Wan-I2V を上回る ”。

このチュートリアルでは、デュアルカード RTX A6000 リソースを使用します。

2. プロジェクト例

1. 画像から動画へ

2. マルチフレームからビデオへ

3. ビデオからビデオへ

4. テキストからビデオへ

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2.1 画像からビデオへの変換

パラメータの説明

  • 生成パラメータ
    • ノイズ乗数: 0.0 から 1.0 まで調整可能、デフォルトは 0.2 (値が低いほど入力画像に忠実になり、値が高いほどクリエイティブになります)。
    • LoRA Alpha: 0.1 ~ 5.0 で調整可能、デフォルトは 1.4 (スタイルの一貫性を制御します。高すぎると硬くなり、低すぎると一貫性が失われます)。
    • 推論ステップ: 1 から 50 まで調整可能、デフォルトは 10 です (ステップ数が多いほど詳細度は高くなりますが、時間の消費量も直線的に増加します)。

2.2 マルチフレームからビデオへ

パラメータの説明

  • コンディショニングパラメータ
    • 条件付け位置: コンマ区切りのフレーム インデックス (例: "0,20" はビデオ内のキーフレームの時間ポイントを定義します)。
    • ノイズ乗数: カンマで区切られた 0.0 ~ 1.0 の値 (例: 「0.2,0.5」は各キーフレームのクリエイティブの自由度に対応し、値が低いほどフレームに忠実になり、値が高いほど変化が大きくなります)。
  • 生成パラメータ
    • LoRA Alpha: 0.1 ~ 5.0 で調整可能、デフォルトは 1.4 (スタイルの一貫性を制御します。高すぎると硬くなり、低すぎると一貫性が失われます)。
    • 推論ステップ: 1 から 50 まで調整可能、デフォルトは 10 です (ステップ数が多いほど詳細度は高くなりますが、時間の消費量も直線的に増加します)。

2.3 ビデオからビデオ

パラメータの説明

  • コンディショニングパラメータ
    • 条件付け位置: コンマ区切りのフレーム インデックス (例: 「0,1,2,3」、制約生成に使用される元のビデオ内のキーフレームの位置を指定、必須)。
    • ノイズ乗数: カンマで区切られた 0.0 ~ 1.0 の値 (例: 「0.0,0.3」は各条件フレームの影響度に対応し、値が低いほど元のフレームに近くなり、値が高いほど柔軟になります)。
  • 生成パラメータ
    • LoRA Alpha: 0.1 ~ 5.0 で調整可能、デフォルトは 1.4 (スタイルの一貫性を制御します。高すぎると硬くなり、低すぎると一貫性が失われます)。
    • 推論ステップ: 1 から 50 まで調整可能、デフォルトは 10 です (ステップ数が多いほど詳細度は高くなりますが、時間の消費量も直線的に増加します)。

2.4 テキストからビデオへの変換

パラメータの説明

  • 生成パラメータ
    • LoRA Alpha: 0.1 ~ 5.0 で調整可能、デフォルトは 1.4 (スタイルの一貫性を制御します。高すぎると硬くなり、低すぎると一貫性が失われます)。
    • 推論ステップ: 1 から 50 まで調整可能、デフォルトは 10 です (ステップ数が多いほど詳細度は高くなりますが、時間の消費量も直線的に増加します)。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{liu2025pusa,
title={PUSA V1. 0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation},
author={Liu, Yaofang and Ren, Yumeng and Artola, Aitor and Hu, Yuxuan and Cun, Xiaodong and Zhao, Xiaotong and Zhao, Alan and Chan, Raymond H and Zhang, Suiyun and Liu, Rui and others},
journal={arXiv preprint arXiv:2507.16116},
year={2025}
}

@misc{Liu2025pusa,
title={Pusa: Thousands Timesteps Video Diffusion Model},
author={Yaofang Liu and Rui Liu},
year={2025},
url={https://github.com/Yaofang-Liu/Pusa-VidGen},
}
@article{liu2024redefining,
  title={Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach},
  author={Liu, Yaofang and Ren, Yumeng and Cun, Xiaodong and Artola, Aitor and Liu, Yang and Zeng, Tieyong and Chan, Raymond H and Morel, Jean-michel},
  journal={arXiv preprint arXiv:2410.03160},
  year={2024}
}