HyperAI超神经
Back to Headlines

NVIDIA NIM Operator 2.0 发布,增强AI微服务部署效率

7 天前

NVIDIA近日发布了NIM Operator 2.0,旨在进一步简化AI工作流程的部署与管理。这款工具主要面向MLOps工程师、LLMOps工程师以及Kubernetes管理员,通过优化Kubernetes集群中的NVIDIA NIM和NeMo微服务,提升了AI应用的运行效率和安全性。 首次发布回顾 NVIDIA首次推出NIM Operator时就大幅简化了NVIDIA NIM微服务在Kubernetes集群中的部署、自动扩展及升级过程。用户只需几个简单步骤即可快速启动AI工作流,并支持自定义配置以适应生产级环境的需求。这减轻了相关人员的工作负担,提高了AI应用的运行效率。 最新版本特性 NIM Operator 2.0新增了对NeMo微服务生命周期管理的支持,具体包括三项核心NeMo微服务的Kubernetes自定义资源定义(CRDs): NeMo Customizer:支持使用监督学习和参数高效的微调技术对大语言模型(LLMs)进行微调。 NeMo Evaluator:为LLMs提供全面的评估能力,涵盖学术基准测试、自定义自动化评估及LLM作为评判者的途径。 NeMo Guardrails:为LLM端点添加安全检查和内容审核功能,防止出现虚构信息、有害内容及安全漏洞。 核心优势 NIM Operator 2.0不仅简化了部署过程,还改进了日常维护操作: 快速部署:通过“快速开始”和自定义配置选项,用户可以轻松选择合适的依赖项并快速启动AI工作流。 简便的日常维护:支持滚动升级、自定义Ingress规则及自动扩展。例如,自动扩展功能可以根据集群负载动态调整NeMo微服务实例的数量,确保性能稳定。 简化AI工作流管理:用户可以通过NIM Operator更轻松地管理和扩展复杂的AI应用,如部署一个受信任的聊天机器人,仅需管理单一的安全保护管道,即可实现所有必要组件的部署。 扩展支持矩阵:NVIDIA NIM微服务在多个领域中都有广泛应用,包括推理、检索、语音识别及生物学研究。NVIDIA测试了广泛的Kubernetes平台,并增加了许多特定于平台的安全设置和资源约束文档。 技术架构与性能突破 Kubernetes Operator优化:NIM Operator自动化管理微服务的整个生命周期,简化了部署流程,支持Helm图表部署。它能够自动下载和缓存模型,减少初始配置时间。 高性能推理:NIM Operator 2.0支持NVIDIA Blackwell架构的GPU(如RTX50系列和H200),利用FP4计算和NVLink带宽,使得推理速度达到3872 tokens/秒。 动态资源分配:通过集成Prometheus、Grafana和Kubernetes Metrics Server,NIM Operator 2.0能够实时监控GPU和内存使用情况,并根据流量自动调整Pod数量,进一步优化资源利用。 应用场景 电信与客服:Amdocs利用NeMo微服务开发智能代理,自动化处理客户查询和网络优化,提高了电信运营商的工作效率。 医疗与金融:NeMo Guardrails确保了生成内容的合规性,适用于患者数据分析和财务报告生成等高安全场景。 内容创作与研发:支持图像生成、代码补全和多模态RAG等功能,帮助开发者快速构建创意工作流和AI助手。 企业数据管理:通过Curator和Customizer,NIM Operator 2.0可以持续优化模型以适配动态业务数据,满足零售和制造业等行业的个性化需求。 教育与培训:生成技术文档或互动式教程,结合Evaluator评估模型表现,加速AI工程师的培养过程。 社区反响与改进方向 NIM Operator 2.0发布后,社区给予了高度评价,尤其是对其全新CRDs和企业级部署能力的认可。开发者们表示,这款工具“将Kubernetes与AI微服务的结合推向了新的高度”。然而,部分初学者对CRD配置的复杂性提出了意见,建议提供更直观的图形界面(GUI)工具。社区还期待NIM Operator 2.0未来能支持视频生成微服务并进一步降低VRAM需求。对此,NVIDIA回应称,下一版本将会简化配置流程,并探索多模态微服务的支持。 上手指南 用户可以通过NVIDIA开发者网站(developer.nvidia.com)和Hugging Face下载NIM Operator 2.0,并按照以下步骤快速上手: 安装NIM Operator:使用Helm命令 helm install nim-operator nvidia/nim-operator 部署Operator,支持Red Hat OpenShift或开源Kubernetes。 配置CRDs:定义Customizer、Evaluator和Guardrails资源,参考NVIDIA文档设置训练和安全参数。 部署微服务:选择合适的AI模型(如Llama 3.170B),运行 kubectl apply -f nimservice.yaml 启动推理服务。 监控与扩展:使用Prometheus和Grafana配置GPU缓存指标,通过HPA实现自动扩展。 测试工作流:利用genai-perf工具模拟并发请求,验证微服务的性能和稳定性。 背景补充 Cisco Systems的技术营销工程负责人Paniraja Koppa表示:“我们将NVIDIA NIM Operator与Cisco Validated Design(CVD)整合到我们的AI基础设施中,显著提升了企业级检索增强生成管道的部署和维护效率。” NVIDIA是全球领先的图形处理器(GPU)及AI计算解决方案提供商,其产品广泛应用于游戏、专业可视化、数据中心及汽车等领域。NVIDIA AI Enterprise作为该公司为企业客户提供的完整AI软件套件,旨在简化AI应用的开发与部署。NIM Operator 2.0的推出进一步展示了NVIDIA在企业级AI应用上的深厚积累,也为未来的AI生态系统建设奠定了坚实的基础。

Related Links