HyperAI超神经

在CES 2026上，NVIDIA宣布多项针对AI PC开发生态的更新，显著提升小型语言模型（SLMs）和扩散模型在NVIDIA RTX个人电脑上的运行效率。随着FLUX.2、GPT-OSS-20B、Nemotron 3 Nano等高性能模型的涌现，AI开发者正加速在PC端构建生成式AI应用，相关开发框架如ComfyUI、llama.cpp、Ollama和Unsloth的使用量在过去一年翻倍，开发者数量增长十倍。 NVIDIA与开源社区合作，优化了多个框架在RTX GPU上的推理性能。ComfyUI通过PyTorch-CUDA集成，支持NVFP4和FP8量化格式，分别实现60%和40%的内存节省，推理速度平均提升3倍（NVFP4）和2倍（FP8）。相关优化代码已开源，LTX-2、FLUX.2等模型的量化版本也已在Hugging Face上线。在llama.cpp方面，针对混合专家模型（MoE）的推理吞吐量提升35%，Ollama在RTX设备上提升30%。关键优化包括：GPU端采样算法（TopK、TopP、温度等）加速、QKV投影并发处理、MMVQ内核优化以及模型加载速度提升最高达65%。NVIDIA Blackwell架构还支持原生NVFP4，使提示处理速度提升25%。 Ollama也同步更新，支持更多模型高效运行。开发者可通过LM Studio或Ollama App快速体验。此外，NVIDIA与Lightricks联合发布LTX-2音频视频模型，可在RTX AI PC上本地运行，支持4K分辨率、50帧/秒的20秒同步音视频生成，具备多模态控制能力，量化版本内存占用减少30%，适用于本地创作与开发。为推动本地代理AI发展，NVIDIA推出面向私有代理的优化工具链。Nemotron 3 Nano是一款320亿参数MoE模型，仅激活36亿参数，支持100万上下文窗口，适用于编码、推理与STEM任务，可通过Ollama和llama.cpp部署，并支持Unsloth进行LoRA微调，模型与数据完全开源，便于定制与基准测试。在RAG（检索增强生成）方面，NVIDIA与IBM合作推出Docling，可高效处理文档，支持OCR和多模态复杂文档处理，性能比CPU快4倍，已在WSL和Linux环境集成。同时，NVIDIA Video and Audio Effects SDK更新，AI视频补光功能性能提升3倍，最低GPU需求降至RTX 3060，模型体积缩小6倍。新版本已集成至NVIDIA Broadcast应用。 NVIDIA将持续携手开源社区，推动AI PC生态发展，开发者可立即基于RTX PC与DGX Spark构建下一代本地化AI应用。

相关链接

相关链接

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

Command Palette

NVIDIA重磅宣布多项AI PC开发生态更新

相关链接

Command Palette

NVIDIA重磅宣布多项AI PC开发生态更新

相关链接

Command Palette

NVIDIA重磅宣布多项AI PC开发生态更新

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制