HyperAI超神経

Cosmos ワールドの基本モデルをワンクリックでデプロイ

GitHub LTX-ビデオ

チュートリアルの紹介

Cosmos ワールド ベース モデルは、2025 年に NVIDIA によってリリースされました。このモデルは物理 AI 開発者コミュニティに公開されており、何百万時間もの運転データとロボット ビデオ データに基づいてトレーニングされた高度なモデルです。

この一連のモデルは、開発者が新世代のロボットや自動運転車 (AV) を構築できるように、仮想環境の将来の状態を物理的に認識するビデオのニューラル ネットワークを予測および生成できます。

大規模言語モデルと同様に、World Foundation Model (WFM) はモデルの基本クラスに属します。このようなモデルは、テキスト、画像、ビデオ、モーションなどの入力データを使用して仮想世界を生成およびシミュレートし、シーン内のオブジェクトの空間関係とそれらの物理的相互作用を正確にシミュレートします。

CES 2025 カンファレンスで、NVIDIA は、高度なトークナイザー、ガードレール、高速化されたデータ処理と管理ワークフロー、モデルのカスタマイズと最適化フレームワークを備えた、物理ベースのシミュレーションと合成データ生成のための Cosmos ワールド基本モデルの最初のバッチを発表しました。

Cosmos ワールドの基本モデルは、物理的に認識されたビデオ生成のための一連のオープン拡散および自己回帰 Transformer モデルです。これらのモデルは、2,000 万時間の実世界の人間の相互作用、環境、産業、ロボット、運転のデータに基づいて、9,000 兆のトークンでトレーニングされています。 このタイプのモデルは 3 つのカテゴリに分類されます。Nano はリアルタイムの低遅延推論とエッジ展開用に最適化されたモデル、Super は高品質で忠実度の高い自動モデルに適しています。モデルを定義します。

関連ブログは「CES 2025 | NVIDIA が物理 AI 開発者コミュニティに Cosmos ワールド基本モデルを公開”。

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示,由于模型较大,所以需要使用 A6000 启动。

実行方法(コンテナ起動後、初期化に15秒程度かかり、その後以下の操作を行います)

1. クローンを作成してコンテナを起動した後

ワークスペースを開く > ターミナルを開く

2. 次のコマンドを入力して環境をアクティブ化します。

conda activate ./cosmos

3. 次のコマンドを入力して、Cosmos ディレクトリを切り替えます。

cd Cosmos

4. 次のコマンドを入力して、モデル勾配インターフェイスを開始します。

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

ポート 8080 が表示されたら、右側の API アドレスを開いてグラデーション インターフェイスにアクセスします。

ビデオの生成

グラデーションインターフェイスに入ったら、「プロンプトを入力してください」にプロンプトの単語を入力し、「送信」をクリックして推論を実行すると、生成されたビデオが表示されます。

(参考时间:使用 A6000 生成一段 5s 的视频约需要 30 分钟,生成视频时长默认为 5s,不可更改)

話し合ってコミュニケーションする

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しましたので、お友達がコードをスキャンしてメモを作成し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加することを歓迎します↓。