HyperAI超神经
Back to Headlines

NVIDIA Run:ai v2.22 发布:引入灵活工作负载模板和增强用户凭证管理功能

2 days ago

NVIDIA Run:ai 版本 2.22 带来了一系列新功能和改进,旨在提升工作负载管理、资源优化的效率,以及用户的整体体验。以下是该版本的主要更新内容: AI 实践者 灵活的工作负载模板:新版本引入了灵活的工作负载模板,用户可以保存工作负载配置并重复使用,简化了提交过程并促进用户和团队之间的标准化。模板支持从头创建或基于现有资产(如环境、计算资源和数据源)创建。(从 v2.22 开始) 扩展的工作负载优先级管理:新增了一套预定义的优先级值和更广泛的配置选项,用户可以通过 UI 提交灵活工作负载时选择优先级。管理员还可以通过 API 更新每种类型工作负载的默认优先级映射,实现平台级别的调度策略对齐。(从 v2.22 开始) 用户范围的凭证管理:用户可以直接在 UI 和 API 中创建和管理自己的凭证,这些凭证仅限个人使用,并且可以在提交灵活工作负载时安全引用。(从 v2.22 开始) 计算任务 可配置的 MPI 启动器启动行为:在提交 MPI 分布式训练工作负载时,可以通过灵活工作负载表单、API 或 CLI 配置启动器等待所有工作节点准备就绪后再开始执行,从而提高稳定性和防止提前启动导致的失败。(从 v2.21 开始) 多工作负载的挂起和恢复:用户可以通过 UI 的多选选项一次性挂起或恢复多个工作负载,提高了操作的便捷性。(从 v2.18 开始) 终端分布式训练工作负载的 Pod 删除策略:用户可以在灵活工作负载表单、API 或 CLI 中指定当分布式训练工作负载进入终端状态(完成/失败)时应删除哪些 Pod,增强了资源清理的控制。(从 v2.21 开始) 节点和节点池 通过 API 和 CLI 扩展的节点选择控制:新版本提供了更多的节点选择能力,管理员可以通过 API 指定节点亲和性,并通过 CLI 排除特定节点。(从 v2.22 开始) ConfigMap 子路径支持:现在支持在 ConfigMap 挂载时使用子路径参数,允许使用卷中的不同路径而不仅仅是根目录。(从 v2.21 开始) 自定义 sshd 挂载路径:非 root 用户提交 MPI 分布式训练工作负载时,可以在灵活工作负载表单中定义自定义的 sshd 挂载路径,避免使用 root 的 SSH 配置,确保节点间正确的 SSH 通信。(从 v2.21 开始) 工作负载性能监控 增强的时间段粒度:用户可以选择预定义的时间段(如上一分钟、上五分钟、上一小时)来查看工作负载指标,同时自定义日期范围的选择更加灵活,有助于更细致地分析工作负载性能。(从 v2.21 开始) ML 工程师 通过 API 支持分布式推理:新的 API 允许提交多节点工作负载,适用于需要多个节点协调执行的推理场景。这支持了更高级的部署模式,使规模化推理成为可能。(从 v2.22 开始) 新推理工作负载超时控制:用户在提交推理工作负载时可以通过 UI、API 和 CLI 设置超时参数,控制工作负载的初始化和请求处理,确保故障快速检测和响应。(从 v2.22 开始) UI 支持推理策略:管理员可以直接通过 UI 提交推理策略,这些策略会动态调整界面,影响卡片显示、字段启用或禁用、值锁定等设置。(从 v2.22 开始) 基于应用的 API 访问:所有推理工作负载(自定义、Hugging Face 和 NVIDIA NIM)支持通过 NVIDIA Run:ai 用户应用(OIDC 客户端)进行身份验证,使外部访问推理端点更加安全。(从 v2.22 开始) 新的 gRPC 选项:用户在提交 NVIDIA NIM 推理工作负载时可以选择 gRPC 作为协议,从而实现更灵活的服务器通信。(从 v2.22 开始) UI 中的 NIM 推理工作负载复制和编辑:用户可以使用“复制”选项在 UI 中直接复制和修改现有的 NIM 推理工作负载,使配置重用和适应更加容易。(从 v2.22 开始) 平台管理员 新的工作负载分类特征:NVIDIA Run:ai 支持工作负载分类,默认为每种类型的工作负载分配一个类别,并在概览仪表板中显示。管理员可以通过 API 自定义这些分类,更好地满足组织需求。(从 v2.22 开始) 待处理时间可见性:工作负载网格中显示了每个工作负载的总待处理时间,帮助管理员评估特定项目或部门的资源需求。 节点池的 Swap 和节点级调度控制:管理员可以通过 API 为每个节点池配置 Swap 设置,并开启或关闭节点级调度器,取代了过时的overProvisioningRatio字段,从而实现更细粒度的资源控制和调度行为。(从 v2.22 开始) 增强的节点指标图:节点视图中的详细分配指标得到了增强,包括已分配的 GPU、GPU 内存、CPU 核数和 CPU 内存,帮助用户更好地理解资源分布。 基础设施管理员 OpenShift 部署支持专用 Prometheus:管理员可以在 OpenShift 环境中安装和配置专用的 Prometheus 实例,与 NVIDIA Run:ai 集成,提供更大的灵活性和控制力。(从 v2.22 开始) 支持 S3 和 Git 集成的自定义 CA:管理员可以为 S3 和 Git 仓库配置自定义的证书颁发机构(CA),实现安全的 TLS 通信。这一更新简化了隔离环境的设置,消除了手动构建镜像的需要,确保系统组件之间的一致性。(从 v2.22 开始) 启用其他服务的副本功能:NVIDIA Run:ai 支持为其他服务运行多个副本,这些服务以热备或领导者选举模式运行,确保高可用性并消除单点故障。(从 v2.22 开始) 系统要求 NVIDIA Run:ai 支持 Knative 1.18、OpenShift 4.19 和 Kubernetes 1.33。不支持 Kubernetes 1.30。 弃用通知 消费仪表板:消费仪表板已弃用,取而代之的是报告功能,后者提供更好的资源使用情况可见性、增强的过滤和导出能力。 模板功能:模板功能已弃用,建议过渡到灵活的工作负载模板,后者提供了更多功能和支持。 行业专家评价 NVIDIA Run:ai 的最新更新显著提升了管理和调度 AI 工作负载的能力,尤其是在多租户和企业级环境中。灵活的工作负载模板和扩展的工作负载优先级管理功能使研发团队能够更快地提交和标准化任务。此外,通过 API 和 CLI 提供的增强功能,使 ML 工程师能够更高效地配置和调试推理工作负载。这些更新不仅提升了整体用户体验,还为企业级部署提供了更高的可靠性和可控性。 NVIDIA Run:ai 是一款专为 AI 研究和开发设计的平台,致力于优化 GPU 资源管理和提升工作效率。最新版本的发布进一步巩固了其在 AI 领域的地位。

Related Links