HyperAI超神经

NVIDIA与OpenAI合作，推出专为NVIDIA GPU优化的全新开源推理模型gpt-oss-20b与gpt-oss-120b，标志着AI技术从云端向个人设备的加速渗透。这两款模型具备强大的链式思维（chain-of-thought）能力，支持可调节的推理强度，采用混合专家（MoE）架构，适用于复杂任务如深度研究、网页搜索、代码辅助和文档理解等，尤其适合需要长上下文处理的场景，最大支持131,072个token的上下文长度。此次合作的核心在于性能与可及性的统一。模型在NVIDIA GeForce RTX 5090等高端显卡上可实现高达每秒256个token的推理速度，显著提升本地AI应用体验。NVIDIA通过MXFP4 4-bit精度技术，在保证模型质量的同时大幅降低资源消耗，实现高效推理。这一优化使得开发者和AI爱好者无需依赖云端，即可在个人PC或工作站上运行前沿大模型。为降低使用门槛，NVIDIA与OpenAI联合推动多平台支持。用户可通过Ollama应用轻松部署模型，该工具已原生支持RTX显卡，无需复杂配置，即可实现即开即用的聊天体验，并支持PDF、文本文件解析及多模态输入（如图像提示）。此外，微软AI Foundry Local（公测版）也已集成gpt-oss模型，开发者可通过命令行或SDK快速调用，实现本地化AI工作流。在基础设施层面，这些模型在NVIDIA Blackwell架构上表现尤为突出，借助NVFP4精度与CUDA Graph等技术优化，可在GB200 NVL72系统上实现每秒150万token的惊人推理速度，为大规模企业级应用提供强大算力支撑。此次发布不仅是技术突破，更是开放生态的胜利。NVIDIA持续与Hugging Face、llama.cpp、vLLM、FlashInfer等主流开源框架深度合作，确保模型可在开发者熟悉的工具链中高效运行。目前全球已有超过4.5亿次CUDA下载，650万开发者遍布250个国家，共同构建AI创新生态。正如NVIDIA创始人黄仁勋所言：“OpenAI展示了NVIDIA AI的潜力，如今他们正通过开源推动全球AI创新。”这一合作不仅强化了美国在AI领域的技术领导地位，更推动了AI从“中心化训练”向“分布式推理”时代迈进，让前沿AI能力真正走进千家万户。

OpenAI新开源模型加速落地NVIDIA RTX显卡

Related Links