NVIDIA Cosmos 3: AI für Physik, Welt und Aktion
NVIDIA hat mit Cosmos 3 ein neues Foundation-Modell für die physische Künstliche Intelligenz (Physical AI) vorgestellt. Dieses System ist darauf ausgelegt, dass Roboter, autonome Fahrzeuge und intelligente Räume die reale Welt nicht nur erkennen, sondern auch verstehen, vorhersagen und darauf reagieren können. Im Gegensatz zu früheren Versionen, bei denen verschiedene Funktionen wie Weltgenerierung und physikalisches Verständnis auf unterschiedliche Modelle verteilt waren, vereint Cosmos 3 diese Fähigkeiten in einer einzigen Architektur. Das Modell basiert auf einer Mixture-of-Transformers-Struktur mit zwei Türmen, was die Entwicklung erheblich vereinfacht, da keine komplexe Orchestrierung zwischen mehreren Modellen mehr notwendig ist. Mit der Veröffentlichung macht NVIDIA das Projekt offener. Das Unternehmen hat nicht nur die Modelle, sondern auch die Trainings-Skripte, Einsatz-Tools und Datensätze auf der Plattform Hugging Face open source gestellt. Aktuell sind zwei Versionen des Modells verfügbar, die in ihrer Größe variieren, um unterschiedliche Rechenanforderungen abzudecken. Das System unterstützt eine Vielzahl von Eingabe- und Ausgabemodalitäten, darunter Text, Bilder und Videos. Je nach Anwendungsbereich kann Cosmos 3 physikalisch plausible Bilder generieren, seltene Szenarien für das autonome Fahren simulieren, Vorhersagen über zukünftige Zustände treffen oder direkt Aktionen für Roboter planen. Ein zentraler Bestandteil des Releases ist die Verfügbarkeit von sechs synthetischen Datensätzen, die spezielle Umgebungen wie Robotermanipulation, physikalische Simulation, räumliches Denken, menschliche Bewegung, Fahrszenarien und Lagerlogistik abdecken. Diese Daten ermöglichen es Entwicklern, die Modelle weiter zu trainieren und an spezifische Domänen anzupassen. Um die Qualität der generierten Videos zu bewerten, hat NVIDIA zudem das Framework „NVIDIA Cosmos Human Evaluation" (HUE) eingeführt. Da herkömmliche automatische Benchmark-Ergebnisse bei modernen Video-Generatoren oft zu ähnliche Scores zeigen, um Unterschiede klar zu identifizieren, nutzt HUE eine objektive Faktenprüfung. Dabei werden die Videos in einzelne Fakten zerlegt und in Dimensionen wie semantische Übereinstimmung, physikalische Gesetze und geometrisches Verständnis von Menschen überprüft. Die ersten Benchmark-Ergebnisse zeigen, dass die größeren und kleineren Varianten von Cosmos 3 in verschiedenen Bereichen führende Leistungen erbringen, insbesondere bei Aufgaben, die physikalisches Verständnis und logisches Denken erfordern. NVIDIA stellt zudem vollständige Trainingsrezepte bereit, mit denen Entwickler das Modell via Supervised Fine-Tuning an neue Aufgaben anpassen können. Dies umfasst sowohl die Anpassung an eigene Videodaten als auch spezifische Trainings für robotische Anwendungen, um Vorhersagen über Aktionen zu treffen oder Roboter-Verhalten zu simulieren. Für den produktiven Einsatz bietet NVIDIA die Integration über NIM-Mikroservices an. Diese verpacken die Modelle in optimierte Inferenz-Laufzeiten, sodass Unternehmen die Lösungen ohne manuelle Anpassung der Infrastruktur bereitstellen können. Die Reasoner-Version der NIMs ist bereits verfügbar, während die volle Generierungsfunktion folgen wird. NVIDIA betont, dass Cosmos 3 als offene Plattform fungiert, die die Reproduzierbarkeit in der Forschung fördert und Teams weltweit den Einstieg in die Entwicklung fortgeschrittener Physical-AI-Systeme erleichtern soll. Durch die Kombination aus Unified-Architektur, offenen Datensätzen und robusten Evaluierungsmethoden setzt NVIDIA einen neuen Standard für die Entwicklung von KI-Systemen, die sicher und effektiv in der physischen Welt agieren können.
