Wan2.2-S2V-14B: 映画グレードのオーディオ駆動型ビデオ生成

1. チュートリアルの概要

建てる

Wan2.2-S2V-14Bは、2025年8月にアリババ同義万向チームによってオープンソース化された音声駆動型動画生成モデルです。Wan2.2-S2V-14Bは、静止画と音声クリップのみで、最長数分の映画品質のデジタルヒューマン動画を生成でき、様々な画像タイプとフレームをサポートしています。ユーザーはテキストプロンプトを入力して動画画面を操作し、より豊かな映像表現を実現できます。このモデルは、複数の革新的な技術を統合し、複雑なシーンの音声駆動型動画生成を実現し、長時間動画生成やマルチ解像度の学習・推論をサポートしています。このモデルは、デジタルヒューマンの生放送、映画・テレビ制作、AI教育などの分野で広く利用されています。関連論文は以下の通りです。Wan-S2V: オーディオ駆動型シネマティックビデオ生成”。

このチュートリアルで使用されるコンピューティング リソースは、単一の RTX A6000 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

注意:推論ステップ数が多いほど、生成される効果は向上しますが、推論生成時間は長くなります。推論ステップ数は適切な値に設定してください(例1:推論ステップ数が10の場合、動画生成に約15分かかります)。

具体的なパラメータ:

  • 解像度 (H*W): 解像度。
  • セグメントあたりのフレーム数: ビデオが生成されるたびに処理または生成される連続フレームの数を指定します。
  • ガイダンス係数: 生成プロセスが入力プロンプトまたは条件 (テキスト、参照画像など) にどの程度従うかを制御します。
  • サンプリングステップ数: 拡散モデル生成プロセスで使用する反復回数を指定します。拡散モデルは通常、純粋なノイズから開始し、複数のノイズ除去ステップを経て最終結果を得ます。
  • ノイズシフト: ノイズの分布や強度を変更するなど、拡散プロセス中にノイズの特性を調整するために使用されます。
  • ランダム シード (-1 ランダム): 乱数ジェネレーターの初期状態を制御します。
  • 参照画像を最初のフレームとして使用:ブール値オプション。有効にすると、ユーザーが指定した参照画像が、生成されるビデオの開始フレーム(最初のフレーム)として使用されます。
  • ビデオ メモリを節約するためのモデルのオフロード (低速): ビデオ メモリを節約するためのモデルのオフロード (低速)。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}
Wan2.2-S2V-14B: 映画グレードのオーディオ駆動型ビデオ生成 | チュートリアル | HyperAI超神経