HyperAIHyperAI

Command Palette

Search for a command to run...

英伟达发布全模态理解模型 OmniVinci,刷新 SOTA 记录,性能领先19.05分 英伟达研究团队今日正式推出全新全模态理解模型 OmniVinci,该模型在关键基准测试中实现显著突破,性能超越当前最先进模型19.05分,标志着多模态人工智能迈入新阶段。尤为突出的是,OmniVinci 仅使用1/6的训练数据量,便达到远超同类模型的性能,展现出卓越的数据效率。 OmniVinci 的核心目标是构建一个能够融合视觉、音频与文本信息的通用智能系统,使人工智能具备类似人类的多感官感知与综合理解能力。为实现这一愿景,英伟达团队设计了创新的架构与训练策略,通过统一的全模态潜在空间,实现跨模态信息的深度融合与推理。 在 Dailyomni 基准测试中,OmniVinci 表现强劲,超越 Qwen2.5-Omni,其中在音频理解任务的 MMAR 指标上领先1.7分,在视觉理解任务的 Video-MME 指标上领先3.9分。更令人瞩目的是,OmniVinci 的训练数据量仅为0.2万亿 Token,而 Qwen2.5-Omni 需要1.2万亿 Token,意味着其训练效率高达后者的6倍。 模型的核心创新来自三项关键技术:OmniAlignNet、时间嵌入分组(TEG)与约束旋转时间嵌入(CRTE)。OmniAlignNet 通过挖掘视觉与音频信号之间的互补性,强化跨模态对齐能力;TEG 将音视频信息按时间分组,有效捕捉动态时序关系;CRTE 则进一步优化时间对齐机制,确保模型能准确理解事件发生的绝对时间顺序。 研究团队采用两阶段训练策略:先进行模态特定训练,再进入全模态联合训练,逐步提升模型的综合理解能力。此外,通过利用现有视频问答数据集,OmniVinci 在隐式全模态学习方面也实现了显著增强,进一步提升了音视频联合推理能力。 OmniVinci 的发布不仅是英伟达在多模态 AI 领域的重大突破,也为未来智能系统的发展提供了新范式。其开源策略将为全球科研机构与开发者提供强大工具,加速人工智能在医疗、教育、内容创作、自动驾驶等领域的实际应用与创新。

英伟达研究团队近日发布全新全模态理解模型 OmniVinci,标志着多模态人工智能领域取得重要突破。该模型在关键基准测试中表现卓越,相较当前顶尖模型实现19.05分的显著领先,且仅使用1/6的训练数据,展现出极高的数据效率。 OmniVinci 的核心目标是构建一个能像人类一样综合理解视觉、音频与文本信息的通用智能系统。为实现这一愿景,研究团队设计了创新的架构与训练策略,通过统一的全模态潜在空间,将不同感官输入深度融合,实现跨模态的精准理解与推理。在 Dailyomni 基准测试中,OmniVinci 超越 Qwen2.5-Omni,音频理解能力(MMAR)提升1.7分,视觉理解(Video-MME)提升3.9分,充分验证了其在多模态任务中的全面优势。 更令人瞩目的是,OmniVinci 仅消耗0.2万亿训练Token,而 Qwen2.5-Omni 需要1.2万亿Token,意味着其训练效率达到后者的6倍。这一成果得益于三项核心技术:OmniAlignNet、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)。OmniAlignNet 通过挖掘视觉与音频信号间的互补性,强化跨模态对齐;TEG 将音视频信息按时间片段分组,有效捕捉动态时序关系;CRTE 则进一步优化时间对齐机制,使模型能够理解事件发生的绝对时间顺序,提升对复杂动态场景的理解能力。 训练过程采用两阶段策略:先在各模态上进行独立预训练,再进入全模态联合优化,逐步构建统一的感知能力。此外,研究团队还引入隐式全模态学习方法,利用现有视频问答数据集,进一步增强模型对音视频联合语义的理解能力。 OmniVinci 的发布不仅体现了英伟达在多模态AI领域的技术领先,也预示着未来智能系统在自动驾驶、人机交互、内容生成、医疗影像分析等场景中的广泛应用潜力。其开源策略将为全球科研机构与开发者提供强大工具,推动多模态AI技术的生态发展与实际落地。这一进展标志着人工智能正加速迈向更接近人类感知与认知能力的智能新阶段。

الروابط ذات الصلة

英伟达发布全模态理解模型 OmniVinci,刷新 SOTA 记录,性能领先19.05分 英伟达研究团队今日正式推出全新全模态理解模型 OmniVinci,该模型在关键基准测试中实现显著突破,性能超越当前最先进模型19.05分,标志着多模态人工智能迈入新阶段。尤为突出的是,OmniVinci 仅使用1/6的训练数据量,便达到远超同类模型的性能,展现出卓越的数据效率。 OmniVinci 的核心目标是构建一个能够融合视觉、音频与文本信息的通用智能系统,使人工智能具备类似人类的多感官感知与综合理解能力。为实现这一愿景,英伟达团队设计了创新的架构与训练策略,通过统一的全模态潜在空间,实现跨模态信息的深度融合与推理。 在 Dailyomni 基准测试中,OmniVinci 表现强劲,超越 Qwen2.5-Omni,其中在音频理解任务的 MMAR 指标上领先1.7分,在视觉理解任务的 Video-MME 指标上领先3.9分。更令人瞩目的是,OmniVinci 的训练数据量仅为0.2万亿 Token,而 Qwen2.5-Omni 需要1.2万亿 Token,意味着其训练效率高达后者的6倍。 模型的核心创新来自三项关键技术:OmniAlignNet、时间嵌入分组(TEG)与约束旋转时间嵌入(CRTE)。OmniAlignNet 通过挖掘视觉与音频信号之间的互补性,强化跨模态对齐能力;TEG 将音视频信息按时间分组,有效捕捉动态时序关系;CRTE 则进一步优化时间对齐机制,确保模型能准确理解事件发生的绝对时间顺序。 研究团队采用两阶段训练策略:先进行模态特定训练,再进入全模态联合训练,逐步提升模型的综合理解能力。此外,通过利用现有视频问答数据集,OmniVinci 在隐式全模态学习方面也实现了显著增强,进一步提升了音视频联合推理能力。 OmniVinci 的发布不仅是英伟达在多模态 AI 领域的重大突破,也为未来智能系统的发展提供了新范式。其开源策略将为全球科研机构与开发者提供强大工具,加速人工智能在医疗、教育、内容创作、自动驾驶等领域的实际应用与创新。 | القصص الشائعة | HyperAI