HyperAIHyperAI

Command Palette

Search for a command to run...

英伟达发布全模态理解模型 OmniVinci,刷新SOTA纪录领先19.05分

英伟达研究团队今日发布全新全模态理解模型OmniVinci,该模型在关键基准测试中表现惊人,相较现有顶尖模型提升19.05分,刷新SOTA(当前最优)纪录。更值得关注的是,OmniVinci仅使用1/6的训练数据,展现出极高的数据效率。 OmniVinci旨在构建一个能同时理解视觉、音频与文本的全能AI系统,使机器具备类似人类的多感官感知与复杂世界理解能力。为实现这一目标,英伟达团队设计了创新的架构与数据策略,通过统一的全模态潜在空间,实现跨模态信息的深度融合与推理。 在Dailyomni基准测试中,OmniVinci超越Qwen2.5-Omni,音频理解(MMAR)指标高出1.7分,视觉理解(Video-MME)高出3.9分。其训练仅消耗0.2万亿Token,而Qwen2.5-Omni需1.2万亿Token,效率提升达6倍。 模型核心创新包括三项关键技术:OmniAlignNet模块,利用视觉与音频信号的互补性,增强模态间对齐;时间嵌入分组(TEG),将音视频信息按时间分段编码,有效捕捉时序关系;约束旋转时间嵌入(CRTE),解决时间对齐难题,确保模型理解事件的绝对时间顺序。 训练采用两阶段策略:先进行模态独立训练,再开展全模态联合训练,逐步提升综合理解能力。此外,研究团队通过视频问答等现有数据集,引入隐式全模态学习,进一步强化音视频联合推理能力。 OmniVinci的发布标志着英伟达在多模态AI领域取得重大突破,有望推动智能系统在自动驾驶、人机交互、内容生成等场景的深度应用。其开源发布也将为全球科研与开发者提供强大工具,加速AI技术在真实世界中的创新与落地。

相关链接