OmniVinci:开启视觉与听觉融合理解的新纪元
OmniVinci 是 NVIDIA 团队推出的一项系统性研究,致力于提升多模态大语言模型在视觉、音频、视频与文本联合理解方面的能力。该模型在跨模态感知与推理任务中达到当前最先进水平,仅用 0.2 万亿训练标记(tokens),即为 Qwen2.5-Omni 所需 1.2 万亿的六分之一,便在多项基准测试中实现显著超越。 在模型架构方面,OmniVinci 提出三项核心技术创新:一是 OmniAlignNet,通过共享的多模态潜在空间强化视觉与音频嵌入之间的对齐;二是时间嵌入分组(Temporal Embedding Grouping),有效捕捉视觉与音频信号间的相对时间关系;三是受限旋转时间嵌入(Constrained Rotary Time Embedding),精准编码多模态数据中的绝对时间信息。 研究团队还构建了一套全新的数据整理与合成流程,生成了包含 2400 万条单模态与多模态对话的数据集。实验表明,不同模态在感知与推理任务中具有相互增强效应。 在性能表现上,OmniVinci(90亿参数)在 DailyOmni(跨模态理解)任务中领先 Qwen2.5-Omni 19.05 分,在 MMAR(音频理解)上提升 1.7 分,在 Video-MME(视频理解)上提升 3.9 分。该模型在机器人、医疗 AI 和智能工厂等下游应用中也展现出显著的多模态优势。 典型应用示例包括:对视频内容进行深度分析,能准确描述人物动作、对话内容与场景细节;在视觉叙事任务中,可生成连贯、细节丰富的视频描述,涵盖人物行为、物品变化与环境转换。例如,一段视频中,黄仁勋在现代办公室中讲述AI发展,随后机器人在工业场景中打开装有“新大脑”的礼物盒,模型能完整还原这一过程的逻辑与情感表达。 OmniVinci 为构建真正具备“全感官理解”能力的AI系统提供了重要范式,推动多模态大模型向更高效、更智能的方向发展。如需引用,请使用以下格式: @article{omnivinci2025, title={OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM}, author={Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov}, journal={arXiv}, year={2025},}
