HyperAI超神経

Vchitect-2.0 ビデオ拡散モデルデモ

プロジェクト概要

Vchitect-2.0は、上海人工知能研究所チームによって2024年9月に開発された高品質のビデオ生成システムです。このモデルは、20億のパラメータを備えた革新的な並列Transformerアーキテクチャ設計を使用し、テキストプロンプトに基づいてスムーズで高品質のビデオコンテンツを生成できます。Vchitect-2.0: ビデオ拡散モデルのスケールアップのための並列トランスフォーマー”。

このチュートリアルでは、単一カード A6000 のリソースを使用します。

ステップの実行

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. ウェブページに入ると、モデルと対話することができます

動画を生成するには、テキストプロンプトを入力する必要があります。テキストプロンプトは英語のみに対応しています。テキストプロンプトの長さは任意ですが、100文字以内を推奨します。100文字を超えると、生成される動画が長くなりすぎて画質に影響する可能性があります。動画の生成には2~5分ほどかかりますので、しばらくお待ちください。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 ジャンジュンチャン  このチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@article{fan2025vchitect,
  title={Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models},
  author={Fan, Weichen and Si, Chenyang and Song, Junhao and Yang, Zhenyu and He, Yinan and Zhuo, Long and Huang, Ziqi and Dong, Ziyue and He, Jingwen and Pan, Dongwei and others},
  journal={arXiv preprint arXiv:2501.08453},
  year={2025}
}