NVIDIA Cosmos Reason 2 revolutioniert körperliche KI mit fortgeschrittener Vernunft
NVIDIA hat mit Cosmos Reason 2 die neueste Version eines offenen, reasoningbasierten Vision-Language-Modells (VLM) für physische KI vorgestellt, das speziell für Anwendungen in der Robotik und körperlichen Umweltgestaltung optimiert ist. Im Vergleich zur ersten Version übertrifft Cosmos Reason 2 in Genauigkeit und führt sowohl die Physical AI Bench als auch die Physical Reasoning Leaderboards als bestes offenes Modell im Bereich visueller Wahrnehmung. Das Modell verfügt über erweiterte Fähigkeiten in der räumlich-zeitlichen Analyse, nutzt physikalische und allgemeine Erkenntnisse, um Objektbewegungen vorherzusagen, und ermöglicht Roboter- und KI-Agenten, komplexe Aufgaben schrittweise zu planen und zu lösen – ähnlich wie Menschen. Besonders hervorzuheben ist die neue Unterstützung für OCR, 2D/3D-Punktlage und die Interpretation von Markierungen, was die Analyse von Videoinhalten in realen Szenarien erheblich verbessert. So kann das Modell beispielsweise Text in Videos erkennen, um den Zustand einer Straße während eines Regensturms zu bewerten. In der Praxis wird Cosmos Reason 2 bereits von Unternehmen wie Salesforce eingesetzt, um Sicherheit und Compliance in der Arbeitswelt durch die Analyse von Videoaufnahmen von Cobalt-Robotern zu optimieren. In der Datenannotation hilft das Modell, große, vielfältige Datensätze automatisiert zu beschriften und zu bewerten, wobei es präzise Zeitstempel und detaillierte Beschreibungen generiert. Uber nutzt es, um autonome Fahrzeug-Trainingsdaten präzise und suchbar zu machen, was die Identifizierung kritischer Fahrsituationen erheblich beschleunigt. In einer gemeinsam entwickelten Studie zeigten sich signifikante Verbesserungen: BLEU-Scores stiegen um 10,6 %, VQA-Ergebnisse um 0,67 Prozentpunkte und LingoQA um 13,8 %, was die effektive Anpassungsfähigkeit des Modells für autonome Fahrzeuge belegt. Ein weiterer Fortschritt ist die Integration in Robotiksysteme: Cosmos Reason 2 liefert nicht nur die nächsten Handlungsschritte, sondern auch genaue Trajektorienkoordinaten für Roboterarme, etwa beim Verschieben von Klebeband in einen Korb. Plattformen wie Encord bieten nun native Unterstützung für das Modell in ihrer Data Agent-Bibliothek, was Entwicklern den Zugang zu physischer KI erleichtert. Unternehmen wie Hitachi, Milestone und VAST Data nutzen Cosmos Reason bereits für Fortschritte in der Robotik, autonomen Fahrzeugtechnologie und Videoanalyse für Verkehrssicherheit und Arbeitsplatzüberwachung. Die Modelle sind ab sofort über build.nvidia.com zugänglich, mit Beispielprompts zur Objekterkennung und Robotertrajektorienberechnung. Die 2B- und 8B-Versionen können über Hugging Face heruntergeladen oder in der Cloud über AWS, Google Cloud und Microsoft Azure genutzt werden. Unterstützt wird das Projekt durch umfangreiche Dokumentation und den Cosmos Cookbook. Ergänzend stehen weitere Modelle der Cosmos-Familie zur Verfügung: Cosmos Predict 2.5 zur Vorhersage zukünftiger Zustände der physischen Welt, Cosmos Transfer 2.5 für stilistische Video-Transformationen und NVIDIA GR00T N1.6 für humanoides Roboterverhalten mit vollständiger Körperkontrolle. Die Einführung von Cosmos Reason 2 markiert einen bedeutenden Sprung in der Entwicklung von KI, die nicht nur sieht, sondern auch versteht, plant und handelt – ein entscheidender Schritt hin zu wirklich autonomen physischen Agenten. Branchenexperten sehen darin eine Schlüsseltechnologie für die nächste Generation von industriellen Automatisierungslösungen, autonomem Fahren und intelligenten Arbeitsumgebungen. NVIDIA positioniert sich damit weiterhin als führender Akteur im Bereich offener, hochleistungsfähiger KI-Modelle für die physische Welt.
