NVIDIA重磅宣布多项AI PC开发生态更新
在CES 2026上,NVIDIA宣布多项针对AI PC开发生态的更新,显著提升小型语言模型(SLMs)和扩散模型在NVIDIA RTX个人电脑上的运行效率。随着FLUX.2、GPT-OSS-20B、Nemotron 3 Nano等高性能模型的涌现,AI开发者正加速在PC端构建生成式AI应用,相关开发框架如ComfyUI、llama.cpp、Ollama和Unsloth的使用量在过去一年翻倍,开发者数量增长十倍。 NVIDIA与开源社区合作,优化了多个框架在RTX GPU上的推理性能。ComfyUI通过PyTorch-CUDA集成,支持NVFP4和FP8量化格式,分别实现60%和40%的内存节省,推理速度平均提升3倍(NVFP4)和2倍(FP8)。相关优化代码已开源,LTX-2、FLUX.2等模型的量化版本也已在Hugging Face上线。 在llama.cpp方面,针对混合专家模型(MoE)的推理吞吐量提升35%,Ollama在RTX设备上提升30%。关键优化包括:GPU端采样算法(TopK、TopP、温度等)加速、QKV投影并发处理、MMVQ内核优化以及模型加载速度提升最高达65%。NVIDIA Blackwell架构还支持原生NVFP4,使提示处理速度提升25%。 Ollama也同步更新,支持更多模型高效运行。开发者可通过LM Studio或Ollama App快速体验。 此外,NVIDIA与Lightricks联合发布LTX-2音频视频模型,可在RTX AI PC上本地运行,支持4K分辨率、50帧/秒的20秒同步音视频生成,具备多模态控制能力,量化版本内存占用减少30%,适用于本地创作与开发。 为推动本地代理AI发展,NVIDIA推出面向私有代理的优化工具链。Nemotron 3 Nano是一款320亿参数MoE模型,仅激活36亿参数,支持100万上下文窗口,适用于编码、推理与STEM任务,可通过Ollama和llama.cpp部署,并支持Unsloth进行LoRA微调,模型与数据完全开源,便于定制与基准测试。 在RAG(检索增强生成)方面,NVIDIA与IBM合作推出Docling,可高效处理文档,支持OCR和多模态复杂文档处理,性能比CPU快4倍,已在WSL和Linux环境集成。 同时,NVIDIA Video and Audio Effects SDK更新,AI视频补光功能性能提升3倍,最低GPU需求降至RTX 3060,模型体积缩小6倍。新版本已集成至NVIDIA Broadcast应用。 NVIDIA将持续携手开源社区,推动AI PC生态发展,开发者可立即基于RTX PC与DGX Spark构建下一代本地化AI应用。
