Online-Tutorial: Innovation Des Physikalischen KI-Systems, Schnellstart Des NVIDIA-Welt-Basismodells, Das Sonnenlicht Und Dunst Simulieren Kann

vor einem Jahr

Auf der CES 2025-Konferenz Anfang Januar überraschte Huang Renxun alle mit einer neuen Lederjacke. Neben der „weltschnellsten GPU RTX 5090“ sorgte auch das weltweite Basismodell Cosmos für große Aufmerksamkeit.

„Die nächste Grenze der KI ist die Physik.“ Huang verwendete Cosmos, um den Ursprung und die Glaubwürdigkeit dieser Trendanalyse intuitiv zu erklären.

Wie der Name schon sagt, ist ein Weltmodell in der Lage, eine virtuelle Welt zu generieren und zu simulieren und dabei die räumlichen Beziehungen der Objekte in der Szene und ihre physischen Interaktionen zu simulieren. Speziell,Das Cosmos-Weltbasismodell ist eine Reihe von offenen Diffusions- und autoregressiven Transformer-Modellen für die physikbasierte Videogenerierung.9 Billionen Token, trainiert anhand von 20 Millionen Stunden realer Daten zu menschlichen Interaktionen, Umgebungen, Industrie, Robotik und Fahren.

Der leitende Wissenschaftler von Nvidia, Jim Fan, gab auf seinem Social-Media-Konto eine treffende Zusammenfassung von Cosmos:

* Es stehen zwei Modi zur Verfügung:Diffusionsmuster (kontinuierliche Markierungen) und autoregressive Muster (diskrete Markierungen);

* Unterstützt zwei Generierungsmethoden:

Text zu Video (Text->Video) und Text + Video zu Video (Text+Video->Video)

Um es jedem zu ermöglichen, dieses innovative Weltbasismodell kennenzulernen, wurde im Tutorial-Bereich der offiziellen Website von HyperAI die „Ein-Klick-Bereitstellung des Cosmos-Weltbasismodells“ eingeführt. Interessierte Freunde können vorbeikommen und es selbst ausprobieren ~

Adresse des Tutorials:

https://go.hyper.ai/GTCAL

Demolauf

1. Melden Sie sich bei hyper.ai an, wählen Sie auf der Tutorial-Seite „Cosmos World-Basismodell mit einem Klick bereitstellen“ und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wählen Sie die Rechenleistung „NVIDIA RTX A6000“ und das Image „PyTorch“ aus. Sie können je nach Bedarf zwischen „Pay as you go“ oder „Tages-/Wochen-/Monatspaket“ wählen und abschließend auf „Weiter“ klicken.

Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit zu erhalten!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_QZy7

Darüber hinaus läuft das Neujahrsevent von OpenBayes und Einzelkartenpakete mit RTX 4090 und RTX A6000 sind sowohl für einen Tag als auch für eine Woche zum halben Preis erhältlich!

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 7 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf „Arbeitsbereich öffnen“ und öffnen Sie „Terminal“.

5. Geben Sie den folgenden Befehl ein, um die Umgebung zu aktivieren:

conda activate ./cosmos

6. Geben Sie den folgenden Befehl ein, um zum Cosmos-Verzeichnis zu wechseln:

cd Cosmos

7. Geben Sie den folgenden Befehl ein, um die Modell-Gradio-Schnittstelle zu starten:

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

Nachdem Port 8080 angezeigt wird, öffnen Sie die API-Adresse rechts, um auf die Gradio-Schnittstelle zuzugreifen.

Effektanzeige

1. Geben Sie nach dem Aufrufen der Gradio-Oberfläche das Eingabeaufforderungswort unter „Geben Sie Ihre Eingabeaufforderung ein“ ein und klicken Sie auf „Senden“, um die Inferenz zu starten. Nach einigen Minuten Wartezeit können Sie das generierte Video sehen.

Ich habe ein Video einer Naturszene erstellt und die Eingabeaufforderung finden Sie unten zu Ihrer Information.

Aufforderung: Eines Morgens schien die Sonne durch die Wolken in den Bergen und erleuchtete den ruhigen See. Der See ist klar und von üppigen grünen Wäldern umgeben. Die Berge in der Ferne sind in Nebel gehüllt, ein paar Vögel fliegen am Himmel, die Luft ist frisch, ruhig und friedlich.

Wir haben eine „Stable Diffusion Tutorial Exchange Group“ eingerichtet. Willkommen, Freunde, treten Sie der Gruppe bei, um verschiedene technische Probleme zu diskutieren und Anwendungsergebnisse auszutauschen ~

Scannen Sie den unten stehenden QR-Code, um HyperaiXingXing zu WeChat hinzuzufügen (WeChat-ID: Hyperai01), und notieren Sie „SD Tutorial Exchange Group“, um dem Gruppenchat beizutreten.

Verwandt Neuigkeiten

Paper Weekly Report | Microsoft MAI-Thinking Erforscht Die Selbstentwicklung Von Reinem Reinforcement Learning Und Erreicht Eine AIME-Genauigkeit Von 97%; VLM³ Erreicht 3D-Aufgabengeneralisierung Mithilfe Von Klartextkoordinaten Ohne Architektonische Modifikationen… Ein Kurzer Überblick Über Die Neuesten KI-Veröffentlichungen Der Woche

Extrem Leichtgewichtig Und Dennoch Mit Unverminderter Bildqualität! ERNIE-Image-Turbo: Schluss Mit Langen Wartezeiten, Blitzschnelle Geschwindigkeit! Einführung Zweidimensionaler Metriken Für Wahrnehmung Und Kognition: Alibabas Einheitlicher Multimodaler Parsing- Und Evaluierungsdatensatz OmniParsingBench Ist Jetzt online.

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Unterstützt Die Generierung Von Live-Action-/Animations-/Tier-basierten Videos; Meituans Open-Source-Framework LongCat 1.5 Zur Generierung Von Audio-basierten Videos in Verschiedenen Stilen Erweitert Die Diagrammrekonstruktions- Und Tabellenextraktionsfunktionen Von VLM Mithilfe Des Millionenfachen Diagrammverständnis-Datensatzes ChartNet.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

HyperAI

Online-Tutorial: Innovation Des Physikalischen KI-Systems, Schnellstart Des NVIDIA-Welt-Basismodells, Das Sonnenlicht Und Dunst Simulieren Kann

vor einem Jahr

Information

Künstliche Intelligenz

„Die nächste Grenze der KI ist die Physik.“ Huang verwendete Cosmos, um den Ursprung und die Glaubwürdigkeit dieser Trendanalyse intuitiv zu erklären.

Der leitende Wissenschaftler von Nvidia, Jim Fan, gab auf seinem Social-Media-Konto eine treffende Zusammenfassung von Cosmos:

* Es stehen zwei Modi zur Verfügung:Diffusionsmuster (kontinuierliche Markierungen) und autoregressive Muster (diskrete Markierungen);

* Unterstützt zwei Generierungsmethoden:

Text zu Video (Text->Video) und Text + Video zu Video (Text+Video->Video)

Adresse des Tutorials:

https://go.hyper.ai/GTCAL

Demolauf

1. Melden Sie sich bei hyper.ai an, wählen Sie auf der Tutorial-Seite „Cosmos World-Basismodell mit einem Klick bereitstellen“ und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit zu erhalten!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_QZy7

Darüber hinaus läuft das Neujahrsevent von OpenBayes und Einzelkartenpakete mit RTX 4090 und RTX A6000 sind sowohl für einen Tag als auch für eine Woche zum halben Preis erhältlich!

5. Geben Sie den folgenden Befehl ein, um die Umgebung zu aktivieren:

conda activate ./cosmos

6. Geben Sie den folgenden Befehl ein, um zum Cosmos-Verzeichnis zu wechseln:

cd Cosmos

7. Geben Sie den folgenden Befehl ein, um die Modell-Gradio-Schnittstelle zu starten:

PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

Nachdem Port 8080 angezeigt wird, öffnen Sie die API-Adresse rechts, um auf die Gradio-Schnittstelle zuzugreifen.

Effektanzeige

Ich habe ein Video einer Naturszene erstellt und die Eingabeaufforderung finden Sie unten zu Ihrer Information.

Scannen Sie den unten stehenden QR-Code, um HyperaiXingXing zu WeChat hinzuzufügen (WeChat-ID: Hyperai01), und notieren Sie „SD Tutorial Exchange Group“, um dem Gruppenchat beizutreten.

Verwandt Neuigkeiten

Paper Weekly Report | Microsoft MAI-Thinking Erforscht Die Selbstentwicklung Von Reinem Reinforcement Learning Und Erreicht Eine AIME-Genauigkeit Von 97%; VLM³ Erreicht 3D-Aufgabengeneralisierung Mithilfe Von Klartextkoordinaten Ohne Architektonische Modifikationen… Ein Kurzer Überblick Über Die Neuesten KI-Veröffentlichungen Der Woche

Extrem Leichtgewichtig Und Dennoch Mit Unverminderter Bildqualität! ERNIE-Image-Turbo: Schluss Mit Langen Wartezeiten, Blitzschnelle Geschwindigkeit! Einführung Zweidimensionaler Metriken Für Wahrnehmung Und Kognition: Alibabas Einheitlicher Multimodaler Parsing- Und Evaluierungsdatensatz OmniParsingBench Ist Jetzt online.

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Unterstützt Die Generierung Von Live-Action-/Animations-/Tier-basierten Videos; Meituans Open-Source-Framework LongCat 1.5 Zur Generierung Von Audio-basierten Videos in Verschiedenen Stilen Erweitert Die Diagrammrekonstruktions- Und Tabellenextraktionsfunktionen Von VLM Mithilfe Des Millionenfachen Diagrammverständnis-Datensatzes ChartNet.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Command Palette

Online-Tutorial: Innovation Des Physikalischen KI-Systems, Schnellstart Des NVIDIA-Welt-Basismodells, Das Sonnenlicht Und Dunst Simulieren Kann

Demolauf

Effektanzeige

Command Palette

Online-Tutorial: Innovation Des Physikalischen KI-Systems, Schnellstart Des NVIDIA-Welt-Basismodells, Das Sonnenlicht Und Dunst Simulieren Kann

Demolauf

Effektanzeige

Verwandt Neuigkeiten

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Command Palette

Online-Tutorial: Innovation Des Physikalischen KI-Systems, Schnellstart Des NVIDIA-Welt-Basismodells, Das Sonnenlicht Und Dunst Simulieren Kann

Demolauf

Effektanzeige

Verwandt Neuigkeiten

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Verwandt Neuigkeiten

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau

Verwandt Neuigkeiten

4-stufige Bildausgabe/4K-Qualität/6-fache Beschleunigung, PiD Verwendet Pixeldiffusion Zur Vereinheitlichung Von Dekodierung Und Superauflösungsausgabe; SA-3DAO: Ein Datensatz Mit 1000 Paaren Realer Bilder, Die Mit Von Künstlern Handgefertigten 3D-Netzen Gepaart sind.

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Anima V1, Ein Brandneues Rohbildmodell, Wurde Veröffentlicht, Das Sich Auf Die Bildgenerierung Im Anime-Stil Konzentriert; Der MemLens Multimodale Langzeitgedächtnis-Evaluierungsdatensatz Umfasst Mechanismen Für Die Dialogübergreifende Graph-Text-Schlussfolgerung Und Wissensaktualisierung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Online-Tutorials | Kompakte Größe, Hohe Leistungsfähigkeit: Qwen 3.6-27B Bietet Programmierfunktionen Auf Flaggschiff-Niveau