NVIDIA NIM Operator 2.0:简化 AI 部署与管理,支持 NeMo 微服务
NVIDIA近日发布了NIM Operator 2.0,进一步简化了AI工作流程的部署与管理。NIM Operator是NVIDIA推出的一款工具,主要用于在Kubernetes集群中管理和优化AI应用的推理管道,其目标用户包括MLOps工程师、LLMOps工程师以及Kubernetes管理员。 首次发布回顾 首次发布的NIM Operator大幅简化了NVIDIA NIM微服务在Kubernetes集群中的部署、自动扩展及升级过程,减轻了相关人员的工作负担,提高了AI应用的运行效率。用户只需几个简单的步骤即可快速启动AI工作流,同时支持自定义配置以适应生产级环境的需求。 应用案例 许多客户和合作伙伴已经通过NIM Operator实现了高效管理,具体应用包括聊天机器人、代理RAG(检索增强生成)和虚拟药物发现。Cisco Compute Solutions团队将NIM Operator整合到Cisco Validated Design中,用于部署NVIDIA AI Blueprint for RAG,从而为企业级检索增强生成管道提供了更加成熟的支持。 最新版本特性 随着NIM Operator 2.0的推出,NVIDIA新增了对NeMo微服务生命周期管理的支持。NeMo是一系列用于构建AI工作流的工具集合,可在本地或云端的Kubernetes集群上运行。 新增功能 2.0版本引入了三个核心NeMo微服务的新Kubernetes自定义资源定义(CRDs): NeMo Customizer:支持使用监督学习和参数高效的微调技术对大语言模型(LLMs)进行微调。 NeMo Evaluator:为LLMs提供全面的评估能力,涵盖学术基准测试、自定义自动化评估及LLM作为评判者的途径。 NeMo Guardrails:为LLM端点添加安全检查和内容审核功能,防止出现虚构信息、有害内容及安全漏洞。 核心优势 该版本不仅简化了部署过程,还改进了日常维护操作: 快速部署:通过“快速开始”和自定义配置选项,用户可以轻松地选择合适的依赖项并快速启动AI工作流。 简便的日常维护:支持滚动升级、自定义Ingress规则及自动扩展。例如,自动扩展功能可以根据集群负载动态调整NeMo微服务实例的数量,确保性能稳定。 简化AI工作流管理:通过NIM Operator,用户可以更容易地管理和扩展复杂的AI应用,如部署一个受信任的聊天机器人,仅需管理单一的安全保护管道,即可实现所有必要组件的部署。 扩展支持矩阵:NVIDIA NIM微服务在多个领域中都有广泛应用,包括推理、检索、语音识别及生物学研究。NVIDIA测试了广泛的Kubernetes平台,并增加了许多特定于平台的安全设置和资源约束文档。 业内评价与公司背景 Cisco Systems的技术营销工程负责人Paniraja Koppa表示:“我们将NVIDIA NIM Operator与Cisco Validated Design(CVD)战略性地整合到我们的AI基础设施中,显著提升了企业级检索增强生成管道的部署和维护效率。NIM Operator强大的高效模型缓存功能极大地提高了AI应用的性能,而统一的多服务管理配置文件则简化了多项服务的部署流程。” NVIDIA致力于简化AI工作流的部署和生产化,NIM Operator作为NVIDIA AI Enterprise的一部分,为企业用户提供支持、API稳定性及主动的安全补丁更新。这一工具不仅提高了AI应用的开发效率,还增强了企业的安全性。 有意试用NIM Operator 2.0的用户可以通过NVIDIA GPU Cloud (NGC)或GitHub仓库获取安装包和技术支持。对于安装、使用或问题报告,可以在GitHub上提交 ISSUE。 NVIDIA是全球领先的图形处理器(GPU)及AI计算解决方案提供商,其产品广泛应用于游戏、专业可视化、数据中心及汽车等领域。NVIDIA AI Enterprise则是该公司为企业客户提供的一套完整的AI软件套件,旨在简化AI应用的开发与部署。