NVIDIA 推出 AI 数据飞轮蓝图,轻松优化代理型 AI 模型性能与成本
面对企业加速采用智能代理AI(Agentic AI)的趋势,开发团队在扩展智能应用的同时面临着巨大的推理成本和效率问题。大型语言模型(LLM)虽然性能强大,但计算需求高,会导致延迟和成本增加。此外,诸如评估、数据整理和微调等开发流程仍多依赖人工操作,耗时费力且难以自动化。与此同时,AI代理在执行推理、工具路由和摘要等任务时越来越依赖多个专业化的模型,每个组件都有不同的性能特征和优化需求,这使得大规模评估和调整变得非常困难。 为了解决这些挑战,英伟达推出了基于NVIDIA NeMo微服务的数据飞轮蓝图(NVIDIA AI Blueprint for building data flywheels)。该蓝图旨在通过使用实际生产中的交互数据,将大型基础模型(如70亿参数的模型)的知识持续蒸馏到更小、更便宜和更快的模型中,而不降低准确性。这不仅减少了延迟和推理成本,还自动化了多个环节,如实验执行、候选模型的筛选与推广等。 数据飞轮蓝图的工作原理: 1. 日志摄入:从教师的基础NIM模型(比如70亿参数的模型)获取生产环境中的请求/响应日志,并将其存储于Elasticsearch索引中。 2. 标记以分区:每条日志都带有诸如workload_id之类的元数据标签,便于系统按任务隔离和处理数据。 3. 数据集创建:Orchestrator(飞轮编排服务)去重并转换日志为训练和评估用的任务对齐数据集,无需外部真实标签。 4. 微调任务:NeMo Customizer根据配置文件(包括LoRA适配器设置)启动监督型微调作业,将大模型知识蒸馏至任务专精的小型模型。 5. 评估跑分:NeMo Evaluator运用三种评估方法对候选NIM模型进行基准测试。 6. 评分与聚合:通过LLM-as-judge等方式自动评分模型输出结果,反馈得分和汇总报告给予开发者及管理员审查或进一步试验。 7. 审查与推广:优秀候选者自动上线代替原大NIM,整个循环可定时或按需触发。 英伟达用此蓝图对特定场景——代理工具调用(Agentic Tool Calling)进行了示范应用。最初,他们构建了一个由大型Llama-3.3-70B-instruct模型驱动的虚拟助手原型,支持如产品问答、订单追踪、退货处理及休闲对话等客服支援任务。团队希望通过真实客户互动数据持续优化模型来降低成本。经过零样本提示、上下文学习和监督细调三个实验阶段后,微调过的Llama-3.2-1B模型表现出了比原始70亿参数模型高达98%的工具调用准确性,显著降低了延时与花费,只需单GPU即可运行,而原模型需双GPU支持。 行业评价与公司背景: 多家技术前沿企业正积极探索和采纳英伟达的数据飞轮蓝图,用于自家业务流程改进。权重与偏置(Weights & Biases)、Iguazio(由QuantumBlack、AI by McKinsey收购)、Amdocs、安永(Ernst & Young)以及VAST皆已基于此框架推出定制化解决方案。例如,Amdocs将其集成到amAIz平台中,实现了LLM细调和评估在CI/CD管道的直接融合;EY则致力于在其税法、风险管理领域的EY.ai平台内实现实时模型优化功能。 通过观看提供的视频教程并参考相关的GitHub仓库文档,有兴趣的企业和个人开发者可以深入了解如何根据具体应用场景配置和运行自己的数据飞轮实例。有兴趣的人士还可以参加英伟达于6月18日举办的网络研讨会和6月26日的直播问答环节,获取更多指导和支持。