HyperAI

Entwicklung von benutzerdefinierten physischen KI-Grundmodellen mit NVIDIA Cosmos Predict-2 Die Erstellung intelligenterer Roboter und autonomer Fahrzeuge (AVs) beginnt mit physischen KI-Modellen, die echte Weltphysik verstehen. Diese Modelle erfüllen zwei wesentliche Aufgaben: Sie beschleunigen die Generierung synthetischer Daten, um autonome Maschinen über reale Physik und Interaktionen – einschließlich seltenen Randfälle – zu informieren, und dienen als Basismodelle, die für spezialisierte Aufgaben oder angepasste Ausgabetypen weitertrainiert werden können. NVIDIA Cosmos Predict-1 legte den Grundstein, indem es eine Reihe von allgemeinen Weltsgrundmodellen (WFMs) anbot, die realistische, physikalisch korrekte zukünftige Weltzustände generieren. Jetzt bringt der neue Cosmos Predict-2 erhebliche Verbesserungen in Geschwindigkeit, visueller Qualität und Anpassungsfähigkeit. In diesem Artikel erfahren Sie mehr über das Modell und wie Sie es für domänenspezifische Anwendungen weitertrainieren können. Cosmos Predict-2 Cosmos Predict-2 ist ein leistungsstarkes Weltsgrundmodell mit architektonischen Verfeinerungen, die Geschwindigkeit, Skalierbarkeit und Flexibilität in Auflösung und Framerate für verschiedene Anwendungsfälle und Hardwareplattformen verbessern. Es gibt zwei Modellvarianten, die sich auf die Komplexität der Aufgaben spezialisieren: 2B-Modell: Eignet sich für schnelles Prototyping oder Anwendungen mit geringer Latenz. Es kann Bildvorschauen innerhalb von 5 Sekunden auf NVIDIA-GPUs wie dem NVIDIA GB200 NVL72, dem NVIDIA DGX B200 und dem NVIDIA RTX PRO 6000 generieren. 14B-Modell: Eignet sich für komplexe Aufgaben, die höhere Genauigkeit und zeitliche Kohärenz erfordern. Es bietet eine bessere Qualität und schnelle Umsetzung auf GB200 und B200-Systemen. Inferenz und Leistungsoptimierungen Cosmos Predict-2 ist darauf ausgelegt, schnell und flexibel Inferenz auf einer Vielzahl von Hardwareplattformen durchzuführen. Für schnelles Prototyping oder Anwendungen mit geringer Latenz liefert das 2B-Modell schnelle Ergebnisse. Das 14B-Modell dagegen bietet eine bessere Qualität für komplexere Aufgaben, während es dennoch eine schnelle Bearbeitung auf GB200 und B200-Systemen ermöglicht. Weitertraining von Cosmos-Modellen für Spezialgründungsmodelle Entwickler können Cosmos Predict-2 für Anwendungen in Bereichen wie Robotik, AVs und industrieller Automatisierung weitertrainieren. Dieser Abschnitt erklärt, wie das Modell für diese Bereiche unter Verwendung des GR00T-Dreams-Blueprints weitertrainiert wird. Er enthält auch Bewertungsmethoden, um optimale Leistung sicherzustellen. Schritt 1: Datenvorbereitung Sammeln Sie etwa 100 Stunden Teleoperation-Video. Verwenden Sie den Data Curator, um Clips zu segmentieren. Stellen Sie sicher, dass die Daten Ihren Setup entsprechen – Robotermodell, Beleuchtung und Objekttypen – und Text-Visual-Paare bilden. Für Beschriftungen können Entwickler jedes visuelle Sprachmodell verwenden, einschließlich Cosmos Reason (siehe Schritt 4 für Details). Schritt 2: Weitertraining des Modells Verwenden Sie die kurierten Text-Videos-Paare, um Cosmos Predict-2 für Ihre spezifische Aufgabe und Umgebung weiterzutrainieren. Nutzen Sie die Weitertrainingsskripte aus dem nvidia-cosmos/cosmos-predict2-GitHub-Repository. Schritt 3: Generierung synthetischer Szenarien Fordern Sie das Modell mit Textanweisungen wie "Pflücke den verletzten Apfel bei schwacher Beleuchtung" auf. Sie können auch ein Anfangsbild verwenden, um domänenspezifische "Träume"-Videos zu erstellen. Schritt 4: Validierung der physikalischen Genauigkeit Cosmos Reason ist ein offenes, räumlich-zeitlich bewusstes Modell zur Interpretation visueller Eingaben mit Textanweisungen. Es führt eine Kette von Überlegungen durch und generiert optimale Textentscheidungen oder -beschriftungen. Es hilft dabei, generierte Daten zu bewerten. In diesem Beispiel kritisiert es die generierten Daten oder "Träume". Der Zyklus von Weitertraining, Generierung, Validierung und Verbesserung ermöglicht die iterativen Verbesserung der Qualität synthetischer Daten und der Leistung nachgeschalteter Modelle. Wie NVIDIA-Forschung Cosmos Predict nutzt NVIDIA-Forschung nutzt Cosmos Predict-1 für fortgeschrittene Video- und 3D-Anwendungen. Die Methode DiffusionRenderer, die in Cosmos integriert ist, kombiniert hochwertige synthetische Daten und realen Videomaterial, um die Beleuchtungsrealität, Geometrie und Materialgenauigkeit in langen Videosequenzen zu verbessern. Sie bietet einen allgemeinen Rahmen für die Beleuchtungssteuerung, Randomisierung und Bearbeitung von Videos. Difix3D+, ein einstufiges Diffusionsmodell, verbessert die 3D-Rekonstruktion und die Erzeugung neuer Ansichten in NeRF- und 3DGS-Pipelines. Integriert in Cosmos Predict-1, verringert es Flicker, verbessert die zeitliche Konsistenz und schärft Details – es meistert wichtige Herausforderungen im Hoch-Framerate-Rendering. NVIDIA-Forschung hat auch ein Pipeline zur Generierung synthetischer Daten für AV-Entwicklung entwickelt – bekannt als Cosmos-Drive-Dreams –, basierend auf Cosmos Transfer und Cosmos Predict-1. Die beiden Modelle erzeugen vielfältige Fahrfilme, die auf HD-Karten, Lidar-Tiefen und Textanweisungen konditioniert sind, und ermöglichen realistische Szenarien unter verschiedenen Bedingungen, die von einzelnen Ansichten zu multiview-konsistenten Videos erweitert werden können. Erste Schritte mit Cosmos Predict-2 Cosmos Predict-2 markiert einen großartigen Fortschritt in der Generierung physikalisch korrekter, hochauflösender synthetischer Daten für Robotik, Vision und autonome Systeme. Mit schnellerer Inferenz, skaliierbarer Leistung und flexiblen Auflösungs- und Framerate-Optionen ist es darauf ausgelegt, sich auf verschiedene Domains und Hardwareplattformen anzupassen. In Kombination mit anderen Weltsgrundmodellen der Cosmos-Familie, einschließlich Cosmos Reason für physikalische KI-Beweisführung und Cosmos Transfer zur Datenaugmentierung, ermöglicht es einen vollständigen Zyklus – Weitertraining, Generierung, Validierung und Verfeinerung. Dies beschleunigt die Entwicklung domänenspezifischer Modelle und schlauerer, sichererer physikalischer KI-Systeme. Experimentieren Sie mit Cosmos Predict-2 auf GitHub. Es enthält Inferenz- und Weitertrainings-Skripte zur Ausführung von offenen Modellcheckpoints von Hugging Face. Besuchen Sie das nvidia-cosmos-GitHub-Repository für weitere Informationen. Folgen Sie NVIDIA auf Hugging Face, um Benachrichtigungen über neue offene Modellveröffentlichungen zu erhalten. Schauen Sie sich das NVIDIA GTC Paris Keynote-Video von NVIDIA-Gründer und CEO Jensen Huang beim VivaTech 2025 an und erkunden Sie die GTC Paris-Sessions. NVIDIA Cosmos und NVIDIA Omniverse setzen die physische KI voran. Bleiben Sie auf dem Laufenden, indem Sie sich für NVIDIA-News anmelden, und verbinden Sie sich mit der Omniverse-Entwicklergemeinschaft für Livestreams über führende Fortschritte in der physischen KI. Nutzen Sie die Omniverse-Entwickler-Starterkits, um Ihre eigenen Anwendungen und Dienstleistungen schnell zu entwickeln und zu verbessern. Bewertung durch Branchenexperten Die Einführung von Cosmos Predict-2 wird von Branchenexperten positiv aufgenommen, da es die bisherigen Herausforderungen in der Generierung synthetischer Daten effektiv löst. Es ermöglicht eine höhere Genauigkeit und Konsistenz, was besonders für den Bereich der Robotik und autonomer Fahrzeuge von großer Bedeutung ist. Die Fähigkeit, das Modell auf spezifische Aufgaben und Umgebungen anzupassen, wird als entscheidender Vorteil hervorgehoben. NVIDIA ist bekannt für seine fortschrittliche Forschung und Entwicklung in der KI, und Cosmos Predict-2 bestätigt dieses Engagement.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

NVIDIA Cosmos Predict-2: Verbesserte AI-Modelle für Robotik und Autonome Fahrzeuge

Verwandte Links

Command Palette

NVIDIA Cosmos Predict-2: Verbesserte AI-Modelle für Robotik und Autonome Fahrzeuge

Verwandte Links

Command Palette

NVIDIA Cosmos Predict-2: Verbesserte AI-Modelle für Robotik und Autonome Fahrzeuge

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.