HyperAI超神经

Introduction au tutoriel

Le modèle de base du monde Cosmos a été publié par NVIDIA en 2025. Il est ouvert à la communauté des développeurs d'IA physique et constitue un modèle avancé formé avec des millions d'heures de données vidéo de conduite et de robotique.

La série de modèles est constituée de réseaux neuronaux capables de prédire et de générer des vidéos physiquement conscientes de l'état futur des environnements virtuels pour aider les développeurs à construire une nouvelle génération de robots et de véhicules autonomes (VA).

Comme le grand modèle de langage, le modèle fondamental mondial (WFM) appartient à la classe fondamentale des modèles. Ces modèles utilisent des données d’entrée, notamment du texte, des images, des vidéos et des mouvements, pour générer et simuler des mondes virtuels afin de simuler avec précision les relations spatiales des objets de la scène et leurs interactions physiques.

Au CES 2025, NVIDIA a dévoilé le premier lot de modèles de base du monde Cosmos pour la simulation basée sur la physique et la génération de données synthétiques, équipés de tokenizers avancés, de garde-fous, de flux de travail accélérés de traitement et de gestion des données et de cadres de personnalisation et d'optimisation des modèles.

Les modèles basés sur le monde Cosmos sont un ensemble de modèles de diffusion ouverts et de transformateurs autorégressifs pour la génération de vidéos sensibles à la physique. Ces modèles ont été formés sur 900 000 milliards de jetons basés sur 20 millions d'heures d'interaction humaine réelle, de données environnementales, industrielles, robotiques et de conduite. Les modèles de cette catégorie sont divisés en trois catégories : Nano, pour les modèles optimisés pour l'inférence en temps réel à faible latence et le déploiement en périphérie ; Super, pour les modèles de base hautes performances ; et Ultra, avec une qualité et une fidélité élevées adaptées à la distillation de modèles personnalisés.

Les blogs associés sontCES 2025 | NVIDIA ouvre le modèle Cosmos World Foundation à la communauté des développeurs d'IA physique".

 该教程使用的是「Cosmos-1.0-Diffusion-7B-Text2World」演示，由于模型较大，所以需要使用 A6000 启动。

Méthode d'exécution (il faut environ 15 secondes pour initialiser après le démarrage du conteneur, puis effectuer les opérations suivantes)

1. Après le clonage et le démarrage du conteneur

Ouvrir l'espace de travail > Ouvrir le terminal

2. Entrez la commande suivante pour activer l'environnement

conda activate ./cosmos

3. Entrez la commande suivante pour passer au répertoire Cosmos

cd Cosmos

4. Entrez la commande suivante pour démarrer l'interface du modèle gradio

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

Une fois le port 8080 affiché, ouvrez l'adresse API à droite pour accéder à l'interface gradio.

Générer une vidéo

Après avoir accédé à l'interface gradio, saisissez le mot d'invite dans « Entrez votre invite » et cliquez sur « Soumettre » pour effectuer l'inférence. Vous pouvez voir la vidéo générée après avoir attendu quelques minutes.

（参考时间：使用 A6000 生成一段 5s 的视频约需要 30 分钟，生成视频时长默认为 5s，不可更改）

Discussion et échange

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutorial Exchange] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓