NVIDIA发布Nemotron系列新模型,助力打造专业化AI代理
NVIDIA在GTC DC大会上发布了一系列名为Nemotron的开源AI模型,旨在推动“智能体AI”(Agentic AI)生态的发展。这些模型聚焦于构建具备规划、推理、信息检索与安全防护能力的多模态AI系统,为开发者提供从训练到部署的完整工具链。 新推出的Nemotron系列包含多个关键模型: - Nemotron Nano 3 是一款320亿参数的混合专家(MoE)模型,仅激活36亿参数,具备高吞吐量与低延迟特性,适用于科学推理、编程、数学计算和工具调用等复杂任务,显著提升AI智能体的思考效率。 - Nemotron Nano 2 VL 是120亿参数的多模态视觉语言模型,专为文档智能与视频理解设计。它在OCR-Bench V2等基准测试中表现领先,支持图像、表格、视频与文本的联合分析。其采用Mamba-Transformer混合架构,结合FP8精度与上下文并行处理技术,提升长视频与长文档处理效率。创新的“高效视频采样”(EVS)方法可自动剔除视频中静态帧,减少冗余,实现最高2.5倍的处理速度提升。 - Nemotron Parse 1.1 是一款10亿参数的轻量级文档解析模型,能精准提取图像中的文本、表格及布局信息,输出带边界框与语义标签的结构化数据,显著提升检索系统与训练数据的质量。 - Nemotron RAG 是一套面向检索增强生成(RAG)的开源模型,支持企业级私有数据安全接入,适用于构建智能客服、IT支持助手、报告生成等应用,已在ViDoRe、MTEB等榜单上领先。 - Llama 3.1 Nemotron Safety Guard 8B V3 是首个多语言内容安全模型,基于包含38.6万样本的文化多样性数据集训练,覆盖23类安全风险与9种语言(含阿拉伯语、印地语、日语等),具备对抗性提示识别能力,准确率达84.2%,支持实时部署于单GPU或NVIDIA NIM服务中。 此外,NVIDIA还开源了NeMo Evaluator SDK与NeMo Agent Toolkit,前者支持动态交互式工作流评估(如ProfBench),后者提供自动化超参数优化功能,可一键调优模型类型、温度、最大令牌数等参数,显著加速智能体开发流程。 所有模型均可通过Hugging Face、NVIDIA Build平台及主流推理服务商(如Baseten、DeepInfra、Replicate等)获取,开发者可立即用于构建文档分析、视频理解、多语言安全过滤与企业级AI代理系统。这一系列开源举措,标志着NVIDIA正推动AI从“生成内容”迈向“自主决策”的智能体时代。
