HyperAI

NVIDIA und OpenAI haben gemeinsam zwei neue, offene KI-Modellversionen – gpt-oss-20b und gpt-oss-120b – für NVIDIA-GPUs optimiert, die nun schnell und intelligent auf der Cloud ebenso wie auf PCs und Workstations eingesetzt werden können. Diese leistungsstarken, offengewichteten Reasoning-Modelle ermöglichen agente-basierte Anwendungen wie Web-Suche, tiefgehende Forschung und Code-Unterstützung. Die Modelle nutzen die Mixture-of-Experts-Architektur, unterstützen Chain-of-Thought-Reasoning und verfügen über anpassbare Denkintensität. Mit einer maximalen Kontextlänge von bis zu 131.072 Tokens sind sie besonders gut für komplexe Aufgaben wie Dokumentenanalyse oder umfangreiche Recherchen geeignet. Die neuen Modelle wurden auf NVIDIA H100-GPUs trainiert und sind nun auf NVIDIA RTX-GPUs – einschließlich der GeForce RTX 5090 – mit bis zu 256 Tokens pro Sekunde performant. Ein besonderer Vorteil ist die Unterstützung von MXFP4, einer 4-Bit-Präzision, die hohe Genauigkeit bei geringerem Ressourcenverbrauch ermöglicht. Dies macht die Modelle effizienter und skalierbarer, besonders in lokalen Umgebungen. Entwickler und Enthusiasten können die Modelle bequem über Ollama nutzen, das nun native Unterstützung für die gpt-oss-Modelle bietet. Mit einer einfachen Benutzeroberfläche oder CLI-Integration lässt sich das Modell direkt auf RTX-AI-PCs mit mindestens 24 GB VRAM starten – ohne zusätzliche Konfiguration. Ollama unterstützt zudem PDF- und Textdateien, Multimodalität (Bilder in Prompts) und anpassbare Kontextlängen. Auch über andere Frameworks wie llama.cpp, GGML, Microsoft AI Foundry Local oder NVIDIA TensorRT LLM können die Modelle auf RTX-GPUs mit mindestens 16 GB VRAM genutzt werden. NVIDIA hat dabei durch CUDA-Graphs und CPU-Optimierungen die Leistung weiter gesteigert. Auf der Blackwell-Architektur erreichen die Modelle bis zu 1,5 Millionen Tokens pro Sekunde auf GB200 NVL72-Systemen, dank Technologien wie NVFP4. Diese Effizienz ermöglicht die Echtzeit-Abfrage von Trillion-Parameter-Modellen und treibt die KI-Infrastruktur weltweit voran. Die Zusammenarbeit zwischen NVIDIA und OpenAI reicht bis ins Jahr 2016 zurück, als Jensen Huang den ersten DGX-1-Supercomputer persönlich an OpenAI überreichte. Seitdem haben beide Unternehmen die Grenzen der KI-Entwicklung gemeinsam erweitert. Jetzt ermöglicht die Optimierung der gpt-oss-Modelle einer globalen Community von über 6,5 Millionen Entwicklern aus 250 Ländern, mit Open-Source-Tools wie FlashInfer, Hugging Face, vLLM und NVIDIA NIM zu arbeiten – alle auf der bewährten CUDA-Plattform. Mit über 450 Millionen CUDA-Downloads weltweit ist NVIDIA die führende Plattform für KI-Entwicklung. Die neue Modelleinführung unterstreicht die Rolle von NVIDIA als Schlüsselakteur von der Modellentwicklung über Training bis hin zur effizienten Inferenz – von der Cloud bis zum persönlichen PC. Die RTX AI Garage-Blog-Serie und Social-Media-Kanäle bieten weiterführende Anleitungen und Inspiration für KI-Entwickler. Die Zukunft der KI ist offen, schnell und global zugänglich – und basiert auf einer starken, gemeinsamen Ökosystem-Partnerschaft.

OpenAI und NVIDIA beschleunigen KI-Innovation mit neuen offenen Modellen auf RTX-GPUs

Related Links