Command Palette

Search for a command to run...

15 天前

OmniVinci:提升架构与数据以实现全模态理解 LLM

OmniVinci:提升架构与数据以实现全模态理解 LLM

摘要

推进机器智能的发展,需要具备跨多模态感知的能力,如同人类感知世界一般。我们提出 OmniVinci 项目,旨在构建一个强大且开源的全模态大语言模型(LLM)。我们对模型架构设计与数据构建策略进行了深入研究。在模型架构方面,我们提出三项关键创新:(i)OmniAlignNet,用于在共享的全模态潜在空间中增强视觉与音频嵌入之间的对齐;(ii)时间嵌入分组(Temporal Embedding Grouping),用于捕捉视觉与音频信号之间的相对时间对齐关系;(iii)约束型旋转时间嵌入(Constrained Rotary Time Embedding),用于在全模态嵌入中编码绝对时间信息。我们设计并实现了一套数据构建与合成流程,生成了包含2400万条单模态与全模态对话的数据集。我们发现,不同模态在感知与推理任务中能够相互增强。我们的模型 OmniVinci 在多项基准测试中表现优异:在 DailyOmni(跨模态理解)上较 Qwen2.5-Omni 提升 19.05 分,在 MMAR(音频)上提升 1.7 分,在 Video-MME(视觉)上提升 3.9 分,而训练所用的 token 数量仅为 0.2T,相比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。最后,我们在机器人、医疗 AI 与智能工厂等下游应用中,验证了全模态模型的显著优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供