NVIDIA baut Open Data für KI
Die Entwicklung künstlicher Intelligenz stößt zunehmend an Grenzen, die weniger durch die Algorithmen selbst als vielmehr durch die zugrundeliegenden Datenstrukturen bestimmt werden. Während Modelle an Leistungsfähigkeit gewinnen, bleiben viele Trainingsdaten fragmentiert, inkomplett oder proprietär. NVIDIA adressiert diese Herausforderung durch einen umfassenden Ansatz zur Bereitstellung offener Datensätze, der Entwicklern den Bau hochwertiger, sicherer und vertrauenswürdiger KI-Systeme erleichtern soll. Traditionell verursachen die Beschaffung, Aufbereitung und Validierung von Trainingsdaten enorm hohe Kosten und zeitliche Verzögerungen von oft mehr als einem Jahr. Um diesen Engpass zu beseitigen, veröffentlicht NVIDIA lizenzfreie Datensätze auf Plattformen wie HuggingFace sowie dazugehörige Trainingsrezepte und Evaluierungsframeworks auf GitHub. Bislang hat das Unternehmen mehr als zwei Petabyte KI-fertiger Daten in über 180 Datensätzen veröffentlicht und über 650 offene Modelle bereitgestellt. Die veröffentlichten Datensätze decken ein breites Spektrum an Anwendungsbereichen ab. Die Physical AI Collection bietet mehr als 500.000 Robotik-Trajektorien und 57 Millionen Greifmanöver sowie multimodale Daten zur Entwicklung des GR00T-Modells für Robotik und autonome Systeme. Ergänzend enthält sie einen der geografisch vielfältigsten Datensätze für autonome Fahrzeuge mit Daten aus 25 Ländern, der die Wahrnehmung in unterschiedlichen Umgebungen benchmarkt. Im Bereich der Sprache und Souveränität AI stellt die Nemotron Personas Collection synthetische, realistische Personenprofile bereit, die kulturelle und demografische Diversität abbilden. Unternehmen wie CrowdStrike nutzen diese Daten, um die Genauigkeit von Übersetzungen deutlich zu steigern. Auch im biologischen Sektor unterstützt der Datensatz La Proteina die Wirkstoffentwicklung mit synthetischen Atomstrukturen, die eine hohe strukturelle Vielfalt aufweisen, ohne persönliche Daten zu enthalten. Zur Standardisierung der Evaluierung dient SPEED-Bench, ein Benchmark für spekulatives Decodieren, sowie Retrieval-Synthetic-NVDocs-v1, der speziell für RAG-Systeme (Retrieval-Augmented Generation) entwickelt wurde. Durch Feinabstimmung auf diesen Datensatz konnten Embedding-Modelle signifikante Leistungssteigerungen erzielen. Zudem ermöglicht der Nemotron-ClimbMix-Datensatz, der mit dem CLIMB-Algorithmus erstellt wurde, eine signifikante Reduzierung der Rechenzeit und eine effizientere Modellkonvergenz. Der Fokus liegt zudem auf der kontinuierlichen Verbesserung der Nemotron-Modellfamilie durch evolutionäre Vor- und Nachtrainingsdatensätze, die mathematische Fähigkeiten, Code-Erstellung und mehrsprachige Interaktionen stärken. Diese Datensätze bilden die Basis für Partnermodelle und Sicherheitslösungen, einschließlich spezieller Daten für Reinforcement Learning und Sicherheitstests. NVIDIA verfolgt dabei das Konzept des „Extreme Co-Designs", bei dem Datenstrategen, Forscher und Ingenieure eng zusammenarbeiten, um Engpässe systemisch zu lösen. Durch transparente Prozesse und offene Zusammenarbeit in Konsortien wie ViDoRe und CVDP entsteht ein Ökosystem, das Iterationen beschleunigt und Qualitätsstandards erhöht. Mit der Vision einer „offenen Küche" lädt NVIDIA Entwickler ein, auf diesen Ressourcen aufzubauen, um gemeinsam eine neue Generation zuverlässiger KI-Agenten zu erschaffen.
