基于NVIDIA Nemotron全新视觉与RAG技术构建安全高效的AI代理
NVIDIA在GTC DC大会上发布了一系列全新AI模型,助力开发者构建更智能、安全、高效的专用AI代理系统。这些模型涵盖推理、多模态理解、检索增强生成(RAG)和内容安全防护,均基于开放数据与优化方案,支持高效训练与部署。 新推出的NVIDIA Nemotron Nano 3是一款320亿参数的混合专家(MoE)模型,仅激活36亿参数,具备高吞吐量与低延迟优势,适用于科学推理、编程、数学计算和工具调用等复杂任务,显著提升AI代理的规划与自我反思能力,同时降低计算成本。 Nemotron Nano 2 VL是120亿参数的多模态视觉语言模型,专为文档与视频理解设计,在OCR-Bench V2等基准测试中表现领先。其采用混合Mamba-Transformer架构,支持长文本与视频输入,结合高效视频采样(EVS)技术,可自动剔除冗余帧,实现高达2.5倍的处理速度提升,同时保持高精度。该模型支持FP4、FP8和BF16量化,兼容vLLM与TRT-LLM推理引擎,并可通过NVIDIA NIM快速部署,适用于报告生成、媒体资产管理与智能检索等场景。 Nemotron Parse 1.1是一款10亿参数的轻量级文档解析模型,能精准提取图像中的文本、表格与布局信息,输出结构化数据,显著提升检索系统与大模型训练数据的质量,广泛应用于文档处理与信息提取流程。 在检索增强生成(RAG)方面,Nemotron RAG提供企业级解决方案,支持私有数据安全接入,适用于IT支持、HR服务、客户客服等多场景AI助手。其嵌入模型在ViDoRe、MTEB、MMTEB等多个权威榜单中表现优异,现已开源至Hugging Face。 为保障AI行为安全,NVIDIA推出Llama 3.1 Nemotron Safety Guard 8B V3,一款支持九种语言的多语言内容安全模型。基于包含38.6万样本的跨文化安全数据集,覆盖23类安全风险,具备对抗性提示识别能力,准确率高达84.2%。其通过LLM驱动的文化适配与一致性过滤技术,确保在非英语语境下仍具高敏感度与可靠性,可部署于单GPU或作为NVIDIA NIM使用。 此外,NVIDIA NeMo Evaluator SDK已开源,支持对AI代理进行可复现的动态评估,涵盖多步推理与工具调用能力。NeMo Agent Toolkit则提供自动化调优功能,可智能优化LLM类型、温度、最大token数等参数,加速Agent与工作流开发。 开发者可通过Hugging Face、build.nvidia.com或OpenRouter获取模型,也可在Baseten、Deep Infra、Replicate等平台快速部署。更多资源与教程可访问NVIDIA官网与社区平台。
