NVIDIA GB200 助力 LMArena 构建高效大语言模型评估系统
加州大学伯克利分校的LMArena项目近日取得重大进展,通过与NVIDIA和Nebius的合作,利用NVIDIA GB200 NVL72系统成功开发了一个名为Prompt-to-Leaderboard (P2L)的模型,该模型旨在评估大型语言模型(LLM)在特定任务中的表现,为开发者提供更具体、个性化的选择依据。 LMArena团队的核心人物包括Wei-Lin Chiang和Evan Frick,他们分别是LMArena的联合创始人和高级研究员。自两年前项目启动以来,LMArena一直在致力于开发P2L模型,以收集人类用户对不同语言模型生成的回答的投票,从而创建详细的任务特定排行榜。这种基于用户偏好和实时反馈的方法能够揭示各模型在数学、编程或创意写作等领域的具体优劣,而不仅仅是通过单一的整体评分来掩盖细微差别。 P2L系统的独特之处在于其能够根据预算自动选择最佳模型。例如,用户可以设置每小时5美元的预算,系统将自动从中挑选出性能最优的模型。此外,P2L还支持成本导向的查询路由,使开发者可以根据不同的需求优化资源分配。 今年2月,LMArena将P2L部署在了NVIDIA GB200 NVL72平台上,该平台由Nebius通过NVIDIA DGX Cloud提供。NVIDIA和Nebius共同开发了一个共享沙盒环境,帮助早期用户测试NVIDIA Blackwell平台,并提供了管理和扩展多节点拓扑的最佳实践。 GB200 NVL72集成了36个Grace CPU和72个Blackwell GPU,通过NVIDIA NVLink和NVLink Switch实现了高性能、低延迟。最高可达30 TB的快速统一LPDDR5X和HBM3E内存确保了资源在高需求AI任务中的有效分配。LMArena团队通过单节点和多节点的连续训练运行,展示了该平台的出色单节点吞吐量和高效的横向扩展能力。 NVIDIA DGX Cloud团队与Nebius和LMArena紧密合作,确保了快速无缝的部署,为使用GB200 NVL72平台的开源开发者提供了全面的支持。团队验证并编译了多个关键的AI框架,如PyTorch、DeepSpeed、Hugging Face Transformers和其他新兴模型框架,使得开发者可以专注于产品开发,而不是库和组件的移植。 尽管通过早期访问计划使用GB200 NVL72,LMArena仍然取得了显著的性能提升,其最先进的模型仅用四天就完成了训练。Wei-Lin Chiang表示:“这种合作关系彻底改变了我们快速扩展P2L的能力,GB200 NVL72的性能为我们提供了实验的灵活性,使我们能够迅速迭代并实现适应实时用户输入的动态路由模型。” NVIDIA和Nebius的努力不仅达成了技术上的里程碑,也为大规模AI模型的未来部署提供了可重复的模型。Andrey Korolenko,Nebius首席产品和基础设施官表示:“通过验证框架、入门指南和部署蓝图,我们现在能够使未来的客户更容易采用GB200 NVL72,无论是在全机架规模还是有针对性的子容量配置下。” Paul Abruzzo,NVIDIA DGX Cloud团队的高级工程师也提到:“这种深度协调使开发者可以更加专注于产品开发,而不是底层兼容性和性能问题。” 总体而言,此次部署展示了NVIDIA GB200 NVL72平台在速度、适应性和Arm64生态系统准备方面的强大优势,为未来的AI工作负载提供了新的标准。 业内人士评价认为,此次合作不仅推动了技术进步,也加速了AI模型在实际应用中的落地。NVIDIA和Nebius凭借其强大的技术支持和完善的生态系统,为学术界和工业界的创新提供了坚实的基础设施保障。NVIDIA是一家全球领先的图形处理和AI计算技术供应商,而Nebius则是NVIDIA的合作伙伴,专注于云AI解决方案。