NVIDIA 发布 Nemotron 3 Nano Omni
英伟达推出了新一代多模态大模型 Nemotron 3 Nano Omni,旨在解决传统多模态系统依赖多个单模态模型拼接所导致的延迟高、上下文丢失及错误率高的问题。该模型采用单一架构,原生支持文本、图像、音频和视频的统一处理,仅需一次推理调用即可完成所有模态任务。 在架构设计上,Nemotron 3 Nano Omni 拥有 300 亿参数总量,但在推理时仅激活 30 亿参数。这种混合专家机制使其兼具大模型的深度认知能力与小模型的低成本推理优势,同等算力下可服务用户数量提升高达九倍。模型内置可调节的推理模式,允许开发者根据需求在响应速度与思考深度之间进行权衡。此外,它原生支持 OpenAI 兼容 API,并提供跨模态的工具调用功能,便于快速集成至现有系统。 具体应用场景包括光学字符识别、语音转录、界面理解以及金融分析等。例如,财务代理可一次性处理财报电话会议的音频、图表图像和 PDF 报告。在技术实现上,音频和视频处理目前要求关闭推理功能并设定温度为 0,以确保稳定性;而文本和图像则可根据配置启用推理机制,输出思维链分析。 该模型定位为智能体的感知层,负责高效处理多模态信息,随后将结构化观察结果传递给更强大的推理模型进行复杂决策。尽管在音视频的深度推理方面存在一定限制,但其开放的特性、低廉的部署成本以及统一的架构,为构建下一代能够理解真实世界的智能体提供了极具竞争力的解决方案。英伟达正致力于将此打造为完整的开放 AI 生态,满足对模型透明度和可审计性要求较高的行业需求。
