HyperAI

Rafay Systems 宣布推出 Serverless Inference 服务，帮助 NVIDIA 云合作伙伴（NCPs）和 GPU 云提供商快速进入高利润的人工智能市场，提升营收并优化资源利用。这一新服务为运行开源和私有训练或调校的大规模语言模型（LLMs）提供了按需计费的 API 接口，进一步降低了企业采纳生成式 AI 的门槛。根据市场预测，全球 AI 推理市场将在 2025 年达到 1060 亿美元，2030 年则将进一步增长至 2540 亿美元。企业现在更加关注开发增强其业务能力的代理型 AI 应用，而 Rafay 的 Serverless Inference 服务恰好满足了这一需求。企业通过推理端点快速消费生成式 AI 模型，能够大大加快应用开发的速度。 Rafay Systems 的 CEO 和联合创始人 Haseeb Budhani 表示：“过去一年中，许多企业在生成式 AI 领域进行了试验，现在他们希望在业务中集成更高级的 AI 能力。通过我们的 Serverless Inference 服务，NCPs 和 GPU 云合作伙伴可以像亚马逊 Bedrock 一样，为其客户提供最新的生成式 AI 模型，这些模型易于集成、扩展并且成本效益高。” Serverless Inference 服务提供的五大关键功能包括：无缝开发者集成：OpenAI 兼容的 API 使现有应用无需代码迁移即可接入，安全的 RESTful 和流媒体就绪端点加速了客户的价值实现。智能基础设施管理：自动缩放 GPU 节点和动态优化资源分配，确保多租户和独立隔离环境中性能 SLA 的严格遵守，同时避免资源过度配置。内置计量和计费：基于令牌和时间的使用情况跟踪，提供详细的消费数据分析，并与现有计费平台集成，支持透明的按需计费模型。企业级安全和治理：通过 HTTPS 专属 API 端点、循环承载令牌认证、详细的访问日志及按团队、业务单元或应用程序可配置的令牌配额，满足企业合规要求。可观测性、存储和性能监控：从日志和指标到高性能存储后端如 MinIO 和 Weka 完整的支持，确保基础设施和模型性能的透明度。这项服务今天已全面上线，免费提供给所有使用 Rafay 平台的客户和合作伙伴。Rafay 暗示不久之后还将推出细调功能，进一步完善其 AI 服务生态系统。这不仅帮助 NCPs 和 GPU 云提供商迅速提供生产级别的 AI 服务，也消除了复杂的技术和管理障碍。业内人士认为，Rafay 的这一举措将进一步推动 GPU 云基础设施向 AI 作为服务的转型，为企业带来更多的商业机会和技术灵活性。Haseeb Budhani 强调，Rafay 致力于帮助 NCPs 和 GPU 云提供商从提供基础 GPU 服务转向提供全面的 AI 服务，从而在竞争激烈的市场中脱颖而出。 Rafay Systems 成立于 2017 年，致力于将 CPU 和 GPU 基础设施转化为企业的战略资产。该公司通过其 GPU PaaS™ 叠加技术简化了云和本地基础设施的复杂管理，并支持自服务平台和 DevOps 团队的工作流程。其平台还加强了治理能力，优化了 CPU 和 GPU 资源的成本，并加快了云原生和 AI 驱动应用的交付速度。Rafay 已赢得 MoneyGram 和 Guardant Health 等客户的信任，被 Gartner 评为容器管理领域的 Cool Vendor，并在 GigaOm 的管理 Kubernetes 产品雷达报告中被评为 Leader 和 Outperformer。想要了解更多关于 Rafay 的技术和功能细节，请访问其官网 www.rafay.co，并通过 X 和 LinkedIn 关注该公司。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Rafay 推出无服务器推理服务，助力 NVIDIA 云伙伴和 GPU 云提供商快速抢占 AI 市场

相关链接

Command Palette

Rafay 推出无服务器推理服务，助力 NVIDIA 云伙伴和 GPU 云提供商快速抢占 AI 市场

相关链接

Command Palette

Rafay 推出无服务器推理服务，助力 NVIDIA 云伙伴和 GPU 云提供商快速抢占 AI 市场

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟