HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA stellt OmniVinci vor: Revolu­tionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

英伟达研究团队今日发布全新全模态理解模型 OmniVinci,标志着多模态人工智能领域取得重大突破。该模型在关键基准测试 Dailyomni 上表现卓越,超越当前顶尖模型 Qwen2.5-Omni,综合得分高出19.05分。尤为突出的是,OmniVinci 仅使用0.2万亿训练Token,仅为 Qwen2.5-Omni 所需1.2万亿的1/6,展现出六倍于对手的训练效率。OmniVinci 的核心目标是构建一个能像人类一样融合视觉、音频与文本信息的通用感知系统,实现跨模态的深度理解与推理。 为达成这一目标,英伟达团队设计了创新的架构与训练策略。模型采用统一的全模态潜在空间,将不同感官输入映射至共享表征空间,实现信息高效融合。其核心技术包括 OmniAlignNet、时间嵌入分组(TEG)与约束旋转时间嵌入(CRTE)。OmniAlignNet 通过挖掘视觉与音频信号间的互补性,增强跨模态对齐能力;TEG 将时间序列数据按段分组,有效捕捉模态间的时间动态关系;CRTE 则进一步优化时间对齐机制,确保模型能准确理解事件发生的绝对时间顺序。 训练过程采用两阶段策略:先进行模态特定预训练,再进行全模态联合微调,逐步提升模型的综合理解能力。此外,研究团队还引入隐式全模态学习方法,利用现有视频问答数据集强化音视频联合推理能力,进一步提升模型在真实场景中的泛化性能。在具体测试中,OmniVinci 在音频理解的 MMAR 指标上领先1.7分,在视觉理解的 Video-MME 上领先3.9分,充分验证了其在多模态任务中的全面优势。 OmniVinci 的发布不仅彰显了英伟达在AI基础模型研发上的技术实力,也预示着下一代智能系统的发展方向——更高效、更通用、更贴近人类感知方式。其开源策略将极大促进全球科研社区在多模态AI领域的协作与创新,为自动驾驶、智能医疗、人机交互等应用场景提供强大支持。 业内专家评价,OmniVinci 的数据效率与性能突破,或将重新定义多模态模型的开发范式。英伟达作为全球GPU与AI计算的领导者,持续推动基础模型演进,其技术积累正加速AI从“单模态感知”迈向“全感官理解”的关键跃迁。随着模型开源,预计将在学术界与工业界引发新一轮多模态研究热潮。

Verwandte Links

NVIDIA stellt OmniVinci vor: Revolu­tionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung | Aktuelle Beiträge | HyperAI