HyperAI超神经

2 个月前

英伟达近日发布开源多模态模型 Nemotron 3 Nano Omni，旨在统一视觉、音频与语言处理能力，解决现有 AI 代理系统因使用独立模型处理不同数据而导致的延迟高、上下文碎片化及成本高昂等问题。该模型采用 30B-A3B 混合专家架构，将视觉与音频编码器整合于单一系统，在保持高精度的同时，实现了最高达 9 倍的吞吐量提升，显著降低了部署成本并增强了扩展性。在性能方面，Nemotron 3 Nano Omni 在复杂文档智能及音视频理解等多项权威榜单中位居前列。其应用场景广泛，涵盖计算机控制、文档智能解析及音视频理解等。例如，H 公司利用该模型开发的智能体，能够以 1920×1080 原生分辨率实时处理高清屏幕录像，大幅提升了对图形界面的导航与推理能力。在文档处理上，它能同时理解图表、表格与文本内容；在音视频分析中，它能将声音、画面与文档信息整合为统一的推理流，而非割裂的摘要。目前，包括 Palantir、Oracle、Foxconn 及 H 公司在内的多家知名企业已采用或评估该模型。该模型提供开放权重、数据集及训练技术，支持通过英伟达 NeMo 工具链进行定制优化，确保企业能在满足数据主权与合规要求的环境中灵活部署。作为英伟达 Nemotron 家族的新成员，它可与 Super 和 Ultra 等模型配合使用，构建复杂的智能体工作流。该模型已通过 Hugging Face 及英伟达 NIM 微服务提供，并支持从本地服务器到云端数据中心的无缝部署，为开发者提供了高效、低成本的 AI 代理构建路径。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

英伟达发布Nemotron 3 Nano Omni，多模态模型提升AI代理效率9倍

相关链接

Command Palette

英伟达发布Nemotron 3 Nano Omni，多模态模型提升AI代理效率9倍

相关链接

Command Palette

英伟达发布Nemotron 3 Nano Omni，多模态模型提升AI代理效率9倍

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%