HyperAI

AMD 与高通近日联合宣布，其最新硬件平台正式支持 OpenAI 推出的 gpt-oss 系列开放推理模型，标志着人工智能向终端设备的深度下沉迈出关键一步。该系列包含两款模型：参数量较小的 gpt-oss-20b 和更强大的 gpt-oss-120b，分别适用于不同性能需求的场景。其中，gpt-oss-20b 可在配备 16GB 内存的设备上流畅运行，而 gpt-oss-120b 则可在单张 80GB 显存的 GPU 上高效执行，展现出卓越的本地化推理能力。 AMD 宣布，其锐龙 AI Max+395 处理器成为全球首款支持运行 gpt-oss-120b 模型的消费级 AI PC 处理器。为实现这一突破，AMD 采用 GGML 框架与 MXFP4 精度格式，在约 61GB 显存的消耗下实现模型稳定运行。配合“Strix Halo”平台提供的 128GB 统一内存架构，系统可将高达 96GB 内存分配给 GPU，充分满足大模型运行的资源需求。在实际表现上，锐龙 AI Max+395 在运行 gpt-oss-120b 时可实现每秒 30 个 Token 的生成速度，并支持 MCP 模型上下文协议，显著提升复杂任务处理的响应效率与用户体验。与此同时，高通也展示了其骁龙平台在运行 gpt-oss-20b 模型方面的优异表现。早期测试表明，该平台在思维链推理任务中展现出接近云端模型的智能水平。开发者可通过 Hugging Face、Ollama 等主流开源平台，便捷地在搭载骁龙芯片的移动设备与边缘设备上部署和调用该模型，推动 AI 应用在移动端的普及与创新。此次合作不仅彰显了 AMD 与高通在 AI 硬件生态布局上的前瞻性，更加速了 AI 从云端向终端迁移的进程。通过在消费级设备上实现大模型本地化运行，用户将获得更低延迟、更高隐私保护和更强的离线使用能力。未来，随着 gpt-oss 系列模型在更多设备上的落地，智能助手、实时翻译、代码生成、内容创作等应用场景将更加流畅自然，真正实现“AI 无处不在”的愿景。这一进展也为边缘 AI 的规模化应用奠定了坚实基础，预示着智能计算正进入一个以本地化、高效化和开放化为特征的新阶段。

AMD و퀄كوم تعلنان دعم هاردويرهما لسلسلة نماذج GPT-OSS المفتوحة

Related Links