HyperAI

OmniVinci 是 NVIDIA 团队推出的一项系统性研究，致力于提升多模态大语言模型在视觉、音频、视频与文本联合理解方面的能力。该模型在跨模态感知与推理任务中达到当前最先进水平，仅用 0.2 万亿训练标记（tokens），即为 Qwen2.5-Omni 所需 1.2 万亿的六分之一，便在多项基准测试中实现显著超越。在模型架构方面，OmniVinci 提出三项核心技术创新：一是 OmniAlignNet，通过共享的多模态潜在空间强化视觉与音频嵌入之间的对齐；二是时间嵌入分组（Temporal Embedding Grouping），有效捕捉视觉与音频信号间的相对时间关系；三是受限旋转时间嵌入（Constrained Rotary Time Embedding），精准编码多模态数据中的绝对时间信息。研究团队还构建了一套全新的数据整理与合成流程，生成了包含 2400 万条单模态与多模态对话的数据集。实验表明，不同模态在感知与推理任务中具有相互增强效应。在性能表现上，OmniVinci（90亿参数）在 DailyOmni（跨模态理解）任务中领先 Qwen2.5-Omni 19.05 分，在 MMAR（音频理解）上提升 1.7 分，在 Video-MME（视频理解）上提升 3.9 分。该模型在机器人、医疗 AI 和智能工厂等下游应用中也展现出显著的多模态优势。典型应用示例包括：对视频内容进行深度分析，能准确描述人物动作、对话内容与场景细节；在视觉叙事任务中，可生成连贯、细节丰富的视频描述，涵盖人物行为、物品变化与环境转换。例如，一段视频中，黄仁勋在现代办公室中讲述AI发展，随后机器人在工业场景中打开装有“新大脑”的礼物盒，模型能完整还原这一过程的逻辑与情感表达。 OmniVinci 为构建真正具备“全感官理解”能力的AI系统提供了重要范式，推动多模态大模型向更高效、更智能的方向发展。如需引用，请使用以下格式： @article{omnivinci2025, title={OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM}, author={Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, Oluwatobi Olabiyi, Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov}, journal={arXiv}, year={2025},}

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

OmniVinci：开启视觉与听觉融合理解的新纪元

相关链接

Command Palette

OmniVinci：开启视觉与听觉融合理解的新纪元

相关链接

Command Palette

OmniVinci：开启视觉与听觉融合理解的新纪元

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答