HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA beschleunigt KI-Modelle auf RTX-PCs mit Open-Source-Updates

AI-Entwicklung auf PCs erlebt einen exponentiellen Aufschwung, getrieben durch die steigende Qualität kleiner Sprachmodelle (SLMs) und Diffusionsmodelle wie FLUX.2, GPT-OSS-20B und Nemotron 3 Nano. Plattformen wie ComfyUI, llama.cpp, Ollama und Unsloth haben in den letzten zwölf Monaten ihre Popularität verdoppelt, während die Zahl der Entwickler, die auf PC-Systemen KI-Modelle nutzen, sich verzehnfacht hat. NVIDIA präsentiert auf der CES 2026 erhebliche Verbesserungen für die KI-Entwicklung auf RTX-GPUs, die die Leistung von LLMs und Diffusionsmodellen erheblich steigern. Gemeinsam mit der Open-Source-Community optimiert NVIDIA die Inferenzleistung über die gesamte KI-Stack-Schicht. So wurde ComfyUI für NVIDIA-GPUs durch PyTorch-CUDA weiter beschleunigt und unterstützt nun die quantisierten Formate NVFP4 und FP8, die jeweils 60 % bzw. 40 % Speicherplatz sparen und eine durchschnittliche Geschwindigkeitssteigerung um das 3-Fache (NVFP4) und das 2-Fache (FP8) ermöglichen. Die Optimierungs-Codebase ist im ComfyUI-Kitchen-Repository verfügbar, ebenso wie die entsprechenden Checkpoints auf Hugging Face – darunter LTX-2, FLUX.2, FLUX.1-dev und Qwen-Image. Für SLMs steigert sich die Token-Generierungsrate bei MoE-Modellen um 35 % in llama.cpp und um 30 % in Ollama auf RTX-PCs. Schlüsselverbesserungen in llama.cpp umfassen GPU-basierte Sampling-Algorithmen (TopK, TopP, Temperatur etc.), die Genauigkeit und Konsistenz erhöhen, sowie die Unterstützung konkurrierender CUDA-Streams für QKV-Projektionen. Zudem wurden MMVQ-Kerne optimiert, um GPU-Auslastung zu maximieren, und die Modell-Ladezeit um bis zu 65 % (DGX Spark) und 15 % (RTX) reduziert. Auf Blackwell-GPUs bietet native MXFP4-Unterstützung bis zu 25 % schnellere Prompt-Verarbeitung. Ollama wurde ebenfalls aktualisiert, um die Effizienz auf RTX-Systemen weiter zu steigern. Ein weiterer Höhepunkt ist die Einführung des LTX-2-Modells von NVIDIA und Lightricks – einem fortschrittlichen, offenen Audio-Video-Grundmodell, das bis zu 20 Sekunden synchronisierte AV-Inhalte in 4K mit bis zu 50 fps erzeugt. Es ist für RTX-GPUs und DGX Spark optimiert und nutzt BF16- und NVFP8-Formate, wobei die quantisierte Version 30 % weniger Speicher benötigt. Das Modell ermöglicht multimodale Steuerung und ist für Entwickler, Forscher und Studios geeignet. Zur Unterstützung agenter KI-Workflows stellt NVIDIA Nemotron 3 Nano vor – ein 32-Billionen-Parameter-MoE-Modell mit 3,6 Milliarden aktiven Parametern und 1-Millionen-Context-Fenster. Es übertrifft Benchmarks in Coding, Instruktion-Following und STEM-Aufgaben und ist über Ollama und llama.cpp auf RTX-PCs nutzbar. Mit Unsloth lässt es sich leicht fine-tunen. Die Open-Source-Verfügbarkeit von Gewichten, Rezepten und Datensätzen fördert Transparenz und vermeidet Datenlecks. Für Retrieval-Augmented Generation (RAG) kooperiert NVIDIA mit Docling – einem Tool zur Dokumentenverarbeitung, das auf RTX-GPUs und DGX Spark bis zu viermal schneller arbeitet als auf CPUs. Es unterstützt sowohl klassische OCR-Pipelines als auch VLM-basierte Ansätze für komplexe Dokumente. Zudem werden die NVIDIA Video- und Audio-Effects-SDKs aktualisiert: Die KI-Relighting-Funktion in der neuen NVIDIA Broadcast-App ist nun bis zu dreimal schneller, benötigt nur noch eine RTX 3060 und reduziert die Modellgröße um bis zu 6x. Diese Entwicklungen zeigen, dass KI-Entwicklung auf lokalen Systemen nicht nur möglich, sondern zunehmend leistungsfähiger und wettbewerbsfähig wird. Die enge Zusammenarbeit mit der Open-Source-Community beschleunigt Innovation und macht leistungsstarke KI-Workflows für Entwickler weltweit zugänglich.

Verwandte Links

NVIDIA beschleunigt KI-Modelle auf RTX-PCs mit Open-Source-Updates | Aktuelle Beiträge | HyperAI