HyperAI

Bereitstellung Des Cosmos-Welt-Basismodells Mit Einem Klick

GitHub LTX-Video

Einführung in das Tutorial

Das Cosmos-Weltbasismodell wurde 2025 von NVIDIA veröffentlicht. Es steht der Community der Entwickler physischer KI offen und ist ein fortschrittliches Modell, das mit Millionen von Stunden an Fahr- und Robotervideodaten trainiert wurde.

Bei der Modellreihe handelt es sich um neuronale Netzwerke, die den zukünftigen Zustand virtueller Umgebungen vorhersagen und physisch bewusste Videos generieren können, um Entwicklern beim Bau einer neuen Generation von Robotern und autonomen Fahrzeugen (AVs) zu helfen.

Wie das große Sprachmodell gehört auch das World Fundamental Model (WFM) zur Klasse der Fundamentalmodelle. Solche Modelle verwenden Eingabedaten wie Text, Bilder, Videos und Bewegungen, um virtuelle Welten zu generieren und zu simulieren und so die räumlichen Beziehungen der Objekte in der Szene und ihre physischen Interaktionen genau zu simulieren.

Auf der CES 2025 stellte NVIDIA die erste Reihe weltbasierter Cosmos-Modelle für physikbasierte Simulationen und die Generierung synthetischer Daten vor, die mit fortschrittlichen Tokenisierern, Leitplanken, beschleunigten Arbeitsabläufen für die Datenverarbeitung und -verwaltung sowie Frameworks zur Modellanpassung und -optimierung ausgestattet sind.

Die weltbasierten Modelle von Cosmos sind eine Reihe von Diffusions- und autoregressiven Transformer-Modellen mit offenem Ende für die physikbasierte Videogenerierung. Diese Modelle wurden anhand von 900 Billionen Token trainiert, die auf 20 Millionen Stunden realer Daten zu menschlicher Interaktion, Umwelt, Industrie, Robotik und Fahren basieren. Modelle in dieser Kategorie sind in drei Kategorien unterteilt: Nano, für Modelle, die für Echtzeit-Inferenz mit geringer Latenz und Edge-Bereitstellung optimiert sind; Super, für leistungsstarke Basismodelle; und Ultra, mit hoher Qualität und Wiedergabetreue, geeignet zum Destillieren von benutzerdefinierten Modellen.

Verwandte Blogs sindCES 2025 | NVIDIA öffnet das Cosmos World Foundation-Modell für die Entwickler-Community physischer KI".

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示,由于模型较大,所以需要使用 A6000 启动。

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 15 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Nach dem Klonen und Starten des Containers

Arbeitsbereich öffnen > Terminal öffnen

2. Geben Sie den folgenden Befehl ein, um die Umgebung zu aktivieren

conda activate ./cosmos

3. Geben Sie den folgenden Befehl ein, um zum Cosmos-Verzeichnis zu wechseln

cd Cosmos

4. Geben Sie den folgenden Befehl ein, um die Modell-Gradio-Schnittstelle zu starten

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

Nachdem Port 8080 angezeigt wird, öffnen Sie die API-Adresse rechts, um auf die Gradio-Schnittstelle zuzugreifen.

Video generieren

Geben Sie nach dem Aufrufen der Gradio-Schnittstelle das Eingabeaufforderungswort in „Geben Sie Ihre Eingabeaufforderung ein“ ein und klicken Sie auf „Senden“, um die Inferenz durchzuführen. Nach einigen Minuten Wartezeit können Sie das generierte Video sehen.

(参考时间:使用 A6000 生成一段 5s 的视频约需要 30 分钟,生成视频时长默认为 5s,不可更改)

Diskussion und Austausch

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [Tutorial Exchange], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓