HyperAI

AI-Entwicklung auf PCs erlebt einen exponentiellen Aufschwung, getrieben durch die steigende Qualität kleiner Sprachmodelle (SLMs) und Diffusionsmodelle wie FLUX.2, GPT-OSS-20B und Nemotron 3 Nano. Plattformen wie ComfyUI, llama.cpp, Ollama und Unsloth haben in den letzten zwölf Monaten ihre Popularität verdoppelt, während die Zahl der Entwickler, die auf PC-Systemen KI-Modelle nutzen, sich verzehnfacht hat. NVIDIA präsentiert auf der CES 2026 erhebliche Verbesserungen für die KI-Entwicklung auf RTX-GPUs, die die Leistung von LLMs und Diffusionsmodellen erheblich steigern. Gemeinsam mit der Open-Source-Community optimiert NVIDIA die Inferenzleistung über die gesamte KI-Stack-Schicht. So wurde ComfyUI für NVIDIA-GPUs durch PyTorch-CUDA weiter beschleunigt und unterstützt nun die quantisierten Formate NVFP4 und FP8, die jeweils 60 % bzw. 40 % Speicherplatz sparen und eine durchschnittliche Geschwindigkeitssteigerung um das 3-Fache (NVFP4) und das 2-Fache (FP8) ermöglichen. Die Optimierungs-Codebase ist im ComfyUI-Kitchen-Repository verfügbar, ebenso wie die entsprechenden Checkpoints auf Hugging Face – darunter LTX-2, FLUX.2, FLUX.1-dev und Qwen-Image. Für SLMs steigert sich die Token-Generierungsrate bei MoE-Modellen um 35 % in llama.cpp und um 30 % in Ollama auf RTX-PCs. Schlüsselverbesserungen in llama.cpp umfassen GPU-basierte Sampling-Algorithmen (TopK, TopP, Temperatur etc.), die Genauigkeit und Konsistenz erhöhen, sowie die Unterstützung konkurrierender CUDA-Streams für QKV-Projektionen. Zudem wurden MMVQ-Kerne optimiert, um GPU-Auslastung zu maximieren, und die Modell-Ladezeit um bis zu 65 % (DGX Spark) und 15 % (RTX) reduziert. Auf Blackwell-GPUs bietet native MXFP4-Unterstützung bis zu 25 % schnellere Prompt-Verarbeitung. Ollama wurde ebenfalls aktualisiert, um die Effizienz auf RTX-Systemen weiter zu steigern. Ein weiterer Höhepunkt ist die Einführung des LTX-2-Modells von NVIDIA und Lightricks – einem fortschrittlichen, offenen Audio-Video-Grundmodell, das bis zu 20 Sekunden synchronisierte AV-Inhalte in 4K mit bis zu 50 fps erzeugt. Es ist für RTX-GPUs und DGX Spark optimiert und nutzt BF16- und NVFP8-Formate, wobei die quantisierte Version 30 % weniger Speicher benötigt. Das Modell ermöglicht multimodale Steuerung und ist für Entwickler, Forscher und Studios geeignet. Zur Unterstützung agenter KI-Workflows stellt NVIDIA Nemotron 3 Nano vor – ein 32-Billionen-Parameter-MoE-Modell mit 3,6 Milliarden aktiven Parametern und 1-Millionen-Context-Fenster. Es übertrifft Benchmarks in Coding, Instruktion-Following und STEM-Aufgaben und ist über Ollama und llama.cpp auf RTX-PCs nutzbar. Mit Unsloth lässt es sich leicht fine-tunen. Die Open-Source-Verfügbarkeit von Gewichten, Rezepten und Datensätzen fördert Transparenz und vermeidet Datenlecks. Für Retrieval-Augmented Generation (RAG) kooperiert NVIDIA mit Docling – einem Tool zur Dokumentenverarbeitung, das auf RTX-GPUs und DGX Spark bis zu viermal schneller arbeitet als auf CPUs. Es unterstützt sowohl klassische OCR-Pipelines als auch VLM-basierte Ansätze für komplexe Dokumente. Zudem werden die NVIDIA Video- und Audio-Effects-SDKs aktualisiert: Die KI-Relighting-Funktion in der neuen NVIDIA Broadcast-App ist nun bis zu dreimal schneller, benötigt nur noch eine RTX 3060 und reduziert die Modellgröße um bis zu 6x. Diese Entwicklungen zeigen, dass KI-Entwicklung auf lokalen Systemen nicht nur möglich, sondern zunehmend leistungsfähiger und wettbewerbsfähig wird. Die enge Zusammenarbeit mit der Open-Source-Community beschleunigt Innovation und macht leistungsstarke KI-Workflows für Entwickler weltweit zugänglich.

Verwandte Links

Verwandte Links

Verwandte Links

Eine Neue Methode Zur Vorhersage Der Batterielebensdauer, Die Von Der University of Michigan Und Anderen Vorgeschlagen Wurde, Hat Den Verifizierungszyklus Um Das 40-fache Verkürzt Und Durch „entdeckendes Lernen“ Evaluierungszeit Beim 98% eingespart.

Eine Neue Methode Zur Vorhersage Der Batterielebensdauer, Die Von Der University of Michigan Und Anderen Vorgeschlagen Wurde, Hat Den Verifizierungszyklus Um Das 40-fache Verkürzt Und Durch „entdeckendes Lernen“ Evaluierungszeit Beim 98% eingespart.

Command Palette

NVIDIA beschleunigt KI-Modelle auf RTX-PCs mit Open-Source-Updates

Verwandte Links

Command Palette

NVIDIA beschleunigt KI-Modelle auf RTX-PCs mit Open-Source-Updates

Verwandte Links

Command Palette

NVIDIA beschleunigt KI-Modelle auf RTX-PCs mit Open-Source-Updates

Verwandte Links

Eine Neue Methode Zur Vorhersage Der Batterielebensdauer, Die Von Der University of Michigan Und Anderen Vorgeschlagen Wurde, Hat Den Verifizierungszyklus Um Das 40-fache Verkürzt Und Durch „entdeckendes Lernen“ Evaluierungszeit Beim 98% eingespart.

Eine Neue Methode Zur Vorhersage Der Batterielebensdauer, Die Von Der University of Michigan Und Anderen Vorgeschlagen Wurde, Hat Den Verifizierungszyklus Um Das 40-fache Verkürzt Und Durch „entdeckendes Lernen“ Evaluierungszeit Beim 98% eingespart.