Pyramid Flow は 1 分で超高解像度ビデオ デモを生成します
⚡️ピラミッドフロー⚡️: フローマッチングに基づいた効率的な自己回帰ビデオ生成モデルのトレーニング

1. チュートリアルの概要
Pyramid Flowは、Kuaishou、北京大学、北京郵電大学が共同設立した研究チームによって2024年に開始されたオープンソースの超高解像度ビデオ生成モデルです。関連する論文結果は「」です。効率的なビデオ生成モデリングのためのピラミッド フロー マッチング”。このモデルは、テキストの説明に基づいて、最大 10 秒、最大解像度 1280×768、フレーム レート 24fps の高品質ビデオを生成できます。ピラミッド フローのコア テクノロジーは、ビデオ生成プロセスを解像度の異なる複数の段階に分解するピラミッド フロー マッチング アルゴリズムで、これにより生成効率と品質が向上します。
このチュートリアルでは、フロー マッチングに基づいた効率的な自己回帰ビデオ生成方法をトレーニングします。オープンソース データセットのみをトレーニングすることで、768p 解像度および 24 FPS で高品質の 10 秒ビデオを生成でき、画像からビデオへの生成も自然にサポートされます。このチュートリアルでは、次のモデルと機能がサポートされています。
2 つのモデル チェックポイント:
- 768p: 24FPS で最大 10 秒のビデオ生成をサポート
- 384p: 24FPS で 5 秒のビデオ生成をサポート
2 つの機能:
- ヴィンセントビデオ (text_to_video)
- 画像からビデオへ (image_to_video)
2. 操作手順
コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

1. ヴィンセントビデオ (text_to_video)
選ぶ テキストからビデオへ 機能を使用するには、次のようにプロンプト単語と関連設定を入力します。
- プロンプト: ビデオ生成のプロンプト ガイドとして使用されるテキスト プロンプトの質問。128 ワードを超えることはできないことに注意してください。
- 継続時間: 生成されたビデオの長さ、継続時間 = 16: 5 秒、一時 = 31: 10 秒。
- guide_scale: 視覚的な品質を制御します。テキストからビデオへの生成中に、768p チェックポイントの場合は [7, 9] 以内のガイダンスを使用し、384p チェックポイントの場合は 7 以内のガイダンスを使用することをお勧めします。
- video_guidance_scale: モーションを制御します。値を大きくするとダイナミクスが向上し、自己回帰生成による劣化が軽減され、値が小さくするとビデオが安定します。 10 秒のビデオ生成の場合は、7 段階のガイダンス スケールと 5 段階のビデオ ガイダンス スケールを使用することをお勧めします。 テスト後、768p チェックポイント (大型モデル) を使用して 5 秒ビデオを生成するには約 4 分、384p モデル (小型モデル) を使用して 5 秒ビデオを生成するには約 2 分かかります。


2. 画像生成ビデオ (image_to_video)
選ぶ 画像からビデオへ 機能を使用するには、次のようにプロンプト単語と関連設定を入力します。
- input_image: 元の画像をアップロードします
- プロンプト: ビデオ生成のプロンプト ガイドとして使用されるテキスト プロンプトの質問。128 ワードを超えることはできないことに注意してください。
- 継続時間: 生成されたビデオの長さ、継続時間 = 16: 5 秒、一時 = 31: 10 秒。
- video_guidance_scale: モーションを制御します。値を大きくするとダイナミクスが向上し、自己回帰生成による劣化が軽減され、値が小さくするとビデオが安定します。 10 秒のビデオ生成の場合は、7 段階のガイダンス スケールと 5 段階のビデオ ガイダンス スケールを使用することをお勧めします。 テスト後、768p チェックポイント (大型モデル) を使用して 5 秒ビデオを生成するには約 3 分、384p モデル (小型モデル) を使用して 5 秒ビデオを生成するには約 2 分かかります。


交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
