HyperAI超神经
Back to Headlines

OpenAI新开源模型加速落地NVIDIA RTX显卡

1 天前

NVIDIA与OpenAI合作,推出专为NVIDIA GPU优化的全新开源推理模型gpt-oss-20b与gpt-oss-120b,标志着AI技术从云端向个人设备的加速渗透。这两款模型具备强大的链式思维(chain-of-thought)能力,支持可调节的推理强度,采用混合专家(MoE)架构,适用于复杂任务如深度研究、网页搜索、代码辅助和文档理解等,尤其适合需要长上下文处理的场景,最大支持131,072个token的上下文长度。 此次合作的核心在于性能与可及性的统一。模型在NVIDIA GeForce RTX 5090等高端显卡上可实现高达每秒256个token的推理速度,显著提升本地AI应用体验。NVIDIA通过MXFP4 4-bit精度技术,在保证模型质量的同时大幅降低资源消耗,实现高效推理。这一优化使得开发者和AI爱好者无需依赖云端,即可在个人PC或工作站上运行前沿大模型。 为降低使用门槛,NVIDIA与OpenAI联合推动多平台支持。用户可通过Ollama应用轻松部署模型,该工具已原生支持RTX显卡,无需复杂配置,即可实现即开即用的聊天体验,并支持PDF、文本文件解析及多模态输入(如图像提示)。此外,微软AI Foundry Local(公测版)也已集成gpt-oss模型,开发者可通过命令行或SDK快速调用,实现本地化AI工作流。 在基础设施层面,这些模型在NVIDIA Blackwell架构上表现尤为突出,借助NVFP4精度与CUDA Graph等技术优化,可在GB200 NVL72系统上实现每秒150万token的惊人推理速度,为大规模企业级应用提供强大算力支撑。 此次发布不仅是技术突破,更是开放生态的胜利。NVIDIA持续与Hugging Face、llama.cpp、vLLM、FlashInfer等主流开源框架深度合作,确保模型可在开发者熟悉的工具链中高效运行。目前全球已有超过4.5亿次CUDA下载,650万开发者遍布250个国家,共同构建AI创新生态。 正如NVIDIA创始人黄仁勋所言:“OpenAI展示了NVIDIA AI的潜力,如今他们正通过开源推动全球AI创新。”这一合作不仅强化了美国在AI领域的技术领导地位,更推动了AI从“中心化训练”向“分布式推理”时代迈进,让前沿AI能力真正走进千家万户。

Related Links