HyperAI超神经

英伟达研究团队今日发布全新全模态理解模型OmniVinci，该模型在关键基准测试中表现惊人，相较现有顶尖模型提升19.05分，刷新SOTA（当前最优）纪录。更值得关注的是，OmniVinci仅使用1/6的训练数据，展现出极高的数据效率。 OmniVinci旨在构建一个能同时理解视觉、音频与文本的全能AI系统，使机器具备类似人类的多感官感知与复杂世界理解能力。为实现这一目标，英伟达团队设计了创新的架构与数据策略，通过统一的全模态潜在空间，实现跨模态信息的深度融合与推理。在Dailyomni基准测试中，OmniVinci超越Qwen2.5-Omni，音频理解（MMAR）指标高出1.7分，视觉理解（Video-MME）高出3.9分。其训练仅消耗0.2万亿Token，而Qwen2.5-Omni需1.2万亿Token，效率提升达6倍。模型核心创新包括三项关键技术：OmniAlignNet模块，利用视觉与音频信号的互补性，增强模态间对齐；时间嵌入分组（TEG），将音视频信息按时间分段编码，有效捕捉时序关系；约束旋转时间嵌入（CRTE），解决时间对齐难题，确保模型理解事件的绝对时间顺序。训练采用两阶段策略：先进行模态独立训练，再开展全模态联合训练，逐步提升综合理解能力。此外，研究团队通过视频问答等现有数据集，引入隐式全模态学习，进一步强化音视频联合推理能力。 OmniVinci的发布标志着英伟达在多模态AI领域取得重大突破，有望推动智能系统在自动驾驶、人机交互、内容生成等场景的深度应用。其开源发布也将为全球科研与开发者提供强大工具，加速AI技术在真实世界中的创新与落地。

相关链接

相关链接

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

Command Palette

英伟达发布全模态理解模型 OmniVinci，刷新SOTA纪录领先19.05分

相关链接

Command Palette

英伟达发布全模态理解模型 OmniVinci，刷新SOTA纪录领先19.05分

相关链接

Command Palette

英伟达发布全模态理解模型 OmniVinci，刷新SOTA纪录领先19.05分

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制