HyperAI

NVIDIA在GTC DC大会上发布了一系列名为Nemotron的开源AI模型，旨在推动“智能体AI”（Agentic AI）生态的发展。这些模型聚焦于构建具备规划、推理、信息检索与安全防护能力的多模态AI系统，为开发者提供从训练到部署的完整工具链。新推出的Nemotron系列包含多个关键模型： - Nemotron Nano 3 是一款320亿参数的混合专家（MoE）模型，仅激活36亿参数，具备高吞吐量与低延迟特性，适用于科学推理、编程、数学计算和工具调用等复杂任务，显著提升AI智能体的思考效率。 - Nemotron Nano 2 VL 是120亿参数的多模态视觉语言模型，专为文档智能与视频理解设计。它在OCR-Bench V2等基准测试中表现领先，支持图像、表格、视频与文本的联合分析。其采用Mamba-Transformer混合架构，结合FP8精度与上下文并行处理技术，提升长视频与长文档处理效率。创新的“高效视频采样”（EVS）方法可自动剔除视频中静态帧，减少冗余，实现最高2.5倍的处理速度提升。 - Nemotron Parse 1.1 是一款10亿参数的轻量级文档解析模型，能精准提取图像中的文本、表格及布局信息，输出带边界框与语义标签的结构化数据，显著提升检索系统与训练数据的质量。 - Nemotron RAG 是一套面向检索增强生成（RAG）的开源模型，支持企业级私有数据安全接入，适用于构建智能客服、IT支持助手、报告生成等应用，已在ViDoRe、MTEB等榜单上领先。 - Llama 3.1 Nemotron Safety Guard 8B V3 是首个多语言内容安全模型，基于包含38.6万样本的文化多样性数据集训练，覆盖23类安全风险与9种语言（含阿拉伯语、印地语、日语等），具备对抗性提示识别能力，准确率达84.2%，支持实时部署于单GPU或NVIDIA NIM服务中。此外，NVIDIA还开源了NeMo Evaluator SDK与NeMo Agent Toolkit，前者支持动态交互式工作流评估（如ProfBench），后者提供自动化超参数优化功能，可一键调优模型类型、温度、最大令牌数等参数，显著加速智能体开发流程。所有模型均可通过Hugging Face、NVIDIA Build平台及主流推理服务商（如Baseten、DeepInfra、Replicate等）获取，开发者可立即用于构建文档分析、视频理解、多语言安全过滤与企业级AI代理系统。这一系列开源举措，标志着NVIDIA正推动AI从“生成内容”迈向“自主决策”的智能体时代。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

NVIDIA发布Nemotron系列新模型，助力打造专业化AI代理

相关链接

Command Palette

NVIDIA发布Nemotron系列新模型，助力打造专业化AI代理

相关链接

Command Palette

NVIDIA发布Nemotron系列新模型，助力打造专业化AI代理

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答