英伟达发布Nemotron 3 Nano Omni,多模态模型提升AI代理效率9倍
英伟达近日发布开源多模态模型 Nemotron 3 Nano Omni,旨在统一视觉、音频与语言处理能力,解决现有 AI 代理系统因使用独立模型处理不同数据而导致的延迟高、上下文碎片化及成本高昂等问题。该模型采用 30B-A3B 混合专家架构,将视觉与音频编码器整合于单一系统,在保持高精度的同时,实现了最高达 9 倍的吞吐量提升,显著降低了部署成本并增强了扩展性。 在性能方面,Nemotron 3 Nano Omni 在复杂文档智能及音视频理解等多项权威榜单中位居前列。其应用场景广泛,涵盖计算机控制、文档智能解析及音视频理解等。例如,H 公司利用该模型开发的智能体,能够以 1920×1080 原生分辨率实时处理高清屏幕录像,大幅提升了对图形界面的导航与推理能力。在文档处理上,它能同时理解图表、表格与文本内容;在音视频分析中,它能将声音、画面与文档信息整合为统一的推理流,而非割裂的摘要。 目前,包括 Palantir、Oracle、Foxconn 及 H 公司在内的多家知名企业已采用或评估该模型。该模型提供开放权重、数据集及训练技术,支持通过英伟达 NeMo 工具链进行定制优化,确保企业能在满足数据主权与合规要求的环境中灵活部署。作为英伟达 Nemotron 家族的新成员,它可与 Super 和 Ultra 等模型配合使用,构建复杂的智能体工作流。该模型已通过 Hugging Face 及英伟达 NIM 微服务提供,并支持从本地服务器到云端数据中心的无缝部署,为开发者提供了高效、低成本的 AI 代理构建路径。
