NVIDIA stellt Welt-Grundmodelle für Robotik und autonomes Fahren vor
NVIDIA Research hat mit dem Projekt R²D² einen bedeutenden Fortschritt im Bereich der körperlichen Künstlichen Intelligenz (Physical AI) vorgestellt, der durch die Einführung von World Foundation Models (WFMs) in der Plattform NVIDIA Cosmos geprägt ist. Diese Modelle adressieren eine zentrale Herausforderung: die begrenzte Verfügbarkeit reichlich beschrifteter, realweltbasierter Datensätze für die Ausbildung von Robotern und autonomen Fahrzeugen. Mit Cosmos setzen NVIDIA Forschungsteams auf generative KI, die zukünftige Weltzustände simulieren, vorhersagen und auf physikalische Realität basierend reasoning betreiben kann. Die Plattform umfasst drei Kernmodelle: Cosmos Predict, Cosmos Transfer und Cosmos Reason, die jeweils spezifische Aufgaben im Bereich synthetischer Datengenerierung (SDG) und Datenkuratierung übernehmen. Cosmos Predict erzeugt physikalisch konsistente zukünftige Videoframes aus Text, Bildern oder Videos und ermöglicht so die Beschleunigung der Datengenerierung für die Nachtrainierung von Modellen. Ein prominentes Beispiel ist „Single2MultiView“, eine abgeleitete Version, die aus einem einzigen Frontkamera-Video mehrere konsistente Blickwinkel für autonome Fahrzeuge generiert – ein entscheidender Vorteil für die Entwicklung von AV-Systemen. Ebenso zeigt das Projekt „GR00T-Dreams“ die Fähigkeit, komplexe Roboteraktionen wie das Gießen von Pflanzen durch Simulation zu trainieren, wobei die generierten Trajektorien in der Realität erfolgreich umgesetzt werden konnten. Cosmos Transfer ermöglicht kontrollierte Synthese von Szenen durch die Verwendung mehrerer Eingabemodalitäten wie Segmentierungskarten, Tiefenbilder, Lidar-Daten oder HD-Karten, kombiniert mit Textprompten. Dadurch können Szenarien wie Schneestürme oder Nachtfahrten aus einer einzigen Eingabesequenz generiert werden, was die Vielfalt und Robustheit von Trainingsdaten erhöht – besonders wichtig für die Sim-to-Real-Übertragung in der Robotik und Fahrzeugtechnik. Ein weiteres Beispiel ist die Entwicklung von DiffusionRenderer, einem Framework, das das Umleuchten von Bildern und Videos durch reales Lichtmodellierung ermöglicht, was die Realismusqualität synthetischer Daten signifikant steigert. Cosmos Reason fungiert als hochentwickeltes VLM (Vision-Language-Model), das über längere Ketten von logischem Denken verfügt und physische Alltagskenntnisse einsetzt, um Entscheidungsabläufe zu bewerten. Es kann als „Kritiker“ in der SDG fungieren, indem es die Qualität von generierten Daten anhand realweltbasierter Einschränkungen und Handlungssequenzen bewertet. Die Modellentwicklung erfolgte in zwei Phasen: Supervised Fine-Tuning (SFT) und Reinforcement Learning, wodurch die Leistung in spezifischen Aufgaben wie Roboter-Visual-Question-Answering (z. B. mit dem RoboVQA-Datensatz) deutlich verbessert wurde. Industrieexperten sehen in diesen Entwicklungen einen Paradigmenwechsel: „Die Integration von World Foundation Models in die Robotik-Entwicklung reduziert die Abhängigkeit von kostspieligen und zeitaufwändigen realen Datensammlungen und beschleunigt die Innovation“, sagt ein Experte für autonome Systeme. NVIDIA positioniert sich mit Cosmos als führender Player im Bereich künstlicher Weltmodelle, die nicht nur die Datenkrise lösen, sondern auch die kognitive Fähigkeit von Robotern erweitern. Die öffentliche Bereitstellung der Modelle über GitHub, Hugging Face und wissenschaftliche Publikationen sowie die Einbindung in die NVIDIA Robotics-Fundamentals-Kurse fördert eine breite Akzeptanz und Nutzung. Die Präsentation auf SIGGRAPH 2025 wird erwartet, um die nächste Generation von körperlichen KI-Systemen vorzustellen.