15 天前

OmniVinci：提升架构与数据以实现全模态理解 LLM

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian

摘要

推进机器智能的发展，需要具备跨多模态感知的能力，如同人类感知世界一般。我们提出 OmniVinci 项目，旨在构建一个强大且开源的全模态大语言模型（LLM）。我们对模型架构设计与数据构建策略进行了深入研究。在模型架构方面，我们提出三项关键创新：（i）OmniAlignNet，用于在共享的全模态潜在空间中增强视觉与音频嵌入之间的对齐；（ii）时间嵌入分组（Temporal Embedding Grouping），用于捕捉视觉与音频信号之间的相对时间对齐关系；（iii）约束型旋转时间嵌入（Constrained Rotary Time Embedding），用于在全模态嵌入中编码绝对时间信息。我们设计并实现了一套数据构建与合成流程，生成了包含2400万条单模态与全模态对话的数据集。我们发现，不同模态在感知与推理任务中能够相互增强。我们的模型 OmniVinci 在多项基准测试中表现优异：在 DailyOmni（跨模态理解）上较 Qwen2.5-Omni 提升 19.05 分，在 MMAR（音频）上提升 1.7 分，在 Video-MME（视觉）上提升 3.9 分，而训练所用的 token 数量仅为 0.2T，相比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。最后，我们在机器人、医疗 AI 与智能工厂等下游应用中，验证了全模态模型的显著优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

OmniVinci：提升架构与数据以实现全模态理解 LLM

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian22 more

摘要

用 AI 构建 AI

Hyper Newsletters

Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu Yuanhang Su Sean Lin An-Chieh Cheng Zhen Wan Jinchuan Tian