HyperAI

英伟达研究团队今日发布全新全模态理解模型 OmniVinci，标志着多模态人工智能领域取得重大突破。该模型在关键基准测试 Dailyomni 上表现卓越，超越当前顶尖模型 Qwen2.5-Omni，综合得分高出19.05分。尤为突出的是，OmniVinci 仅使用0.2万亿训练Token，仅为 Qwen2.5-Omni 所需1.2万亿的1/6，展现出六倍于对手的训练效率。OmniVinci 的核心目标是构建一个能像人类一样融合视觉、音频与文本信息的通用感知系统，实现跨模态的深度理解与推理。为达成这一目标，英伟达团队设计了创新的架构与训练策略。模型采用统一的全模态潜在空间，将不同感官输入映射至共享表征空间，实现信息高效融合。其核心技术包括 OmniAlignNet、时间嵌入分组（TEG）与约束旋转时间嵌入（CRTE）。OmniAlignNet 通过挖掘视觉与音频信号间的互补性，增强跨模态对齐能力；TEG 将时间序列数据按段分组，有效捕捉模态间的时间动态关系；CRTE 则进一步优化时间对齐机制，确保模型能准确理解事件发生的绝对时间顺序。训练过程采用两阶段策略：先进行模态特定预训练，再进行全模态联合微调，逐步提升模型的综合理解能力。此外，研究团队还引入隐式全模态学习方法，利用现有视频问答数据集强化音视频联合推理能力，进一步提升模型在真实场景中的泛化性能。在具体测试中，OmniVinci 在音频理解的 MMAR 指标上领先1.7分，在视觉理解的 Video-MME 上领先3.9分，充分验证了其在多模态任务中的全面优势。 OmniVinci 的发布不仅彰显了英伟达在AI基础模型研发上的技术实力，也预示着下一代智能系统的发展方向——更高效、更通用、更贴近人类感知方式。其开源策略将极大促进全球科研社区在多模态AI领域的协作与创新，为自动驾驶、智能医疗、人机交互等应用场景提供强大支持。业内专家评价，OmniVinci 的数据效率与性能突破，或将重新定义多模态模型的开发范式。英伟达作为全球GPU与AI计算的领导者，持续推动基础模型演进，其技术积累正加速AI从“单模态感知”迈向“全感官理解”的关键跃迁。随着模型开源，预计将在学术界与工业界引发新一轮多模态研究热潮。

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

NVIDIA stellt OmniVinci vor: Revolu­tionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

Verwandte Links

Command Palette

NVIDIA stellt OmniVinci vor: Revolu­tionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

Verwandte Links

Command Palette

NVIDIA stellt OmniVinci vor: Revolu­tionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

NVIDIA stellt OmniVinci vor: Revolutionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

NVIDIA stellt OmniVinci vor: Revolutionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung

NVIDIA stellt OmniVinci vor: Revolutionärer Multimodal-Modellrekord mit 19,05 Punkten Vorsprung