HyperAI超神経

自己強制リアルタイムビデオ生成

1. チュートリアルの概要

建てる

Self-Forcingは、2025年6月9日にXun Huangチームによって提案されました。これは、自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムです。これは、実際のコンテキストでトレーニングされたモデルが推論中に自身の不完全な出力に基づいてシーケンスを生成しなければならないという、長年の露出バイアスの問題を解決します。実際のコンテキストフレームに基づいて将来のフレームのノイズを除去する従来の方法とは異なり、Self-Forcingは、トレーニング中にキー値(KV)キャッシュを使用して自己回帰ロールアウトを実行することにより、以前に自己生成された出力に基づいて各フレームの生成を条件付けます。この戦略は、従来のフレームごとの目的関数のみに依存するのではなく、生成されたシーケンス全体の品質を直接評価するビデオレベルの全体的な損失関数を通じて監視を実現します。トレーニング効率を確保するために、数ステップの拡散モデルと確率的勾配切り捨て戦略が採用されており、計算コストとパフォーマンスのバランスが効果的に取られています。さらに、ローリングキー値キャッシュメカニズムが導入され、効率的な自己回帰ビデオ外挿が実現されています。広範囲にわたる実験により、彼らの手法は単一のGPUで1秒未満の遅延でリアルタイムストリーミングビデオ生成を実現し、それよりもはるかに低速で非因果的な拡散モデルの生成品質と同等、あるいはそれを上回ることが示されています。関連論文の結果は以下の通りです。自己強制:自己回帰ビデオ拡散における訓練とテストのギャップを埋める”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

パラメータの説明

  • 詳細設定:
    • シード: 生成プロセスのランダム性を制御するランダムシード値。固定シードでも同じ結果が再現されます。-1 はランダムシードを示します。
    • ターゲットFPS:目標フレームレート。デフォルト値は6で、生成されるビデオは1秒あたり6フレームになります。
    • torch.compile: PyTorch コンパイルの最適化を有効にして、モデル推論を高速化します (環境サポートが必要)。
    • FP8 量子化: 8 ビット浮動小数点量子化を有効にし、計算精度を下げて生成速度を上げます (品質に若干影響する場合があります)。
    • TAEHV VAE: 使用される変分オートエンコーダ (VAE) モデルのタイプを指定します。これは、生成される詳細またはスタイルに影響する可能性があります。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{huang2025selfforcing,
  title={Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion},
  author={Huang, Xun and Li, Zhengqi and He, Guande and Zhou, Mingyuan and Shechtman, Eli},
  journal={arXiv preprint arXiv:2506.08009},
  year={2025}
}