日付

5ヶ月前

サイズ

1.46 GB

タグ

画像から動画生成

ライセンス

Apache 2.0

GitHub

Wan-Video/Wan2.2

論文URL

2508.18621

1. チュートリアルの概要

Wan2.2-S2V-14Bは、アリババのTongyi Wanxiangチームによって2025年8月にオープンソース化された音声駆動型動画生成モデルです。Wan2.2-S2V-14Bは、静止画と音声クリップのみで、数分にも及ぶ映画品質のデジタルヒューマン動画を生成します。様々な画像タイプとアスペクト比に対応しており、ユーザーはテキストプロンプトを入力することで動画フィードを制御できるため、映像表現を豊かにすることができます。このモデルは、複数の革新的技術を統合し、複雑なシーンにおける音声駆動型動画生成を実現し、長時間動画生成やマルチ解像度のトレーニングと推論をサポートしています。このモデルは、デジタルヒューマンのライブストリーミング、映画・テレビ番組制作、AI教育など、幅広い用途に応用可能です。関連研究論文も入手可能です。 Wan-S2V: オーディオ駆動型シネマティックビデオ生成。

このチュートリアルで使用されるコンピューティングリソースは、単一の RTX A6000 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

注意：推論ステップ数が多いほど、生成される効果は向上しますが、推論生成時間は長くなります。推論ステップ数は適切な値に設定してください（例1：推論ステップ数が10の場合、動画生成に約15分かかります）。

具体的なパラメータ:

解像度 (H*W): 解像度。
セグメントあたりのフレーム数: ビデオが生成されるたびに処理または生成される連続フレームの数を指定します。
ガイダンス係数: 生成プロセスが入力プロンプトまたは条件 (テキスト、参照画像など) にどの程度従うかを制御します。
サンプリングステップ数: 拡散モデル生成プロセスで使用する反復回数を指定します。拡散モデルは通常、純粋なノイズから開始し、複数のノイズ除去ステップを経て最終結果を得ます。
ノイズシフト: ノイズの分布や強度を変更するなど、拡散プロセス中にノイズの特性を調整するために使用されます。
ランダムシード (-1 ランダム): 乱数ジェネレーターの初期状態を制御します。
参照画像を最初のフレームとして使用：ブール値オプション。有効にすると、ユーザーが指定した参照画像が、生成されるビデオの開始フレーム（最初のフレーム）として使用されます。
ビデオメモリを節約するためのモデルのオフロード (低速): ビデオメモリを節約するためのモデルのオフロード (低速)。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

5ヶ月前

サイズ

1.46 GB

タグ

画像から動画生成

ライセンス

Apache 2.0

GitHub

Wan-Video/Wan2.2

論文URL

2508.18621

1. チュートリアルの概要

このチュートリアルで使用されるコンピューティングリソースは、単一の RTX A6000 カードです。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

注意：推論ステップ数が多いほど、生成される効果は向上しますが、推論生成時間は長くなります。推論ステップ数は適切な値に設定してください（例1：推論ステップ数が10の場合、動画生成に約15分かかります）。

具体的なパラメータ:

解像度 (H*W): 解像度。
セグメントあたりのフレーム数: ビデオが生成されるたびに処理または生成される連続フレームの数を指定します。
ガイダンス係数: 生成プロセスが入力プロンプトまたは条件 (テキスト、参照画像など) にどの程度従うかを制御します。
サンプリングステップ数: 拡散モデル生成プロセスで使用する反復回数を指定します。拡散モデルは通常、純粋なノイズから開始し、複数のノイズ除去ステップを経て最終結果を得ます。
ノイズシフト: ノイズの分布や強度を変更するなど、拡散プロセス中にノイズの特性を調整するために使用されます。
ランダムシード (-1 ランダム): 乱数ジェネレーターの初期状態を制御します。
参照画像を最初のフレームとして使用：ブール値オプション。有効にすると、ユーザーが指定した参照画像が、生成されるビデオの開始フレーム（最初のフレーム）として使用されます。
ビデオメモリを節約するためのモデルのオフロード (低速): ビデオメモリを節約するためのモデルのオフロード (低速)。

4. 議論

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

2ヶ月前

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

SAM3: 視覚セグメンテーションモデル

2ヶ月前

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

3ヶ月前

Ministry-3-14B-Instructのワンクリック展開

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Wan2.2-S2V-14B: 映画グレードのオーディオ駆動型ビデオ生成

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

Wan2.2-S2V-14B: 映画グレードのオーディオ駆動型ビデオ生成

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

関連 ノートブック

Krea-realtime-video: リアルタイムビデオ生成モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

SAM3: 視覚セグメンテーションモデル

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Ministry-3-14B-Instructのワンクリック展開

AIでAIを構築

HyperAI Newsletters

Command Palette

Wan2.2-S2V-14B: 映画グレードのオーディオ駆動型ビデオ生成

1. チュートリアルの概要

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

4. 議論

引用情報

関連 ノートブック

Krea-realtime-video: リアルタイムビデオ生成モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

SAM3: 視覚セグメンテーションモデル

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Ministry-3-14B-Instructのワンクリック展開

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Krea-realtime-video: リアルタイムビデオ生成モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

SAM3: 視覚セグメンテーションモデル

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Ministry-3-14B-Instructのワンクリック展開

関連 ノートブック

Krea-realtime-video: リアルタイムビデオ生成モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

PaddleOCR-VL: マルチモーダルドキュメント解析

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

SAM3: 視覚セグメンテーションモデル

MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析

Ministry-3-14B-Instructのワンクリック展開

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック