Command Palette
Search for a command to run...

摘要
推进机器智能的发展,需要具备跨多模态感知的能力,如同人类感知世界一般。我们提出 OmniVinci 项目,旨在构建一个强大且开源的全模态大语言模型(LLM)。我们对模型架构设计与数据构建策略进行了深入研究。在模型架构方面,我们提出三项关键创新:(i)OmniAlignNet,用于在共享的全模态潜在空间中增强视觉与音频嵌入之间的对齐;(ii)时间嵌入分组(Temporal Embedding Grouping),用于捕捉视觉与音频信号之间的相对时间对齐关系;(iii)约束型旋转时间嵌入(Constrained Rotary Time Embedding),用于在全模态嵌入中编码绝对时间信息。我们设计并实现了一套数据构建与合成流程,生成了包含2400万条单模态与全模态对话的数据集。我们发现,不同模态在感知与推理任务中能够相互增强。我们的模型 OmniVinci 在多项基准测试中表现优异:在 DailyOmni(跨模态理解)上较 Qwen2.5-Omni 提升 19.05 分,在 MMAR(音频)上提升 1.7 分,在 Video-MME(视觉)上提升 3.9 分,而训练所用的 token 数量仅为 0.2T,相比 Qwen2.5-Omni 的 1.2T 减少了 6 倍。最后,我们在机器人、医疗 AI 与智能工厂等下游应用中,验证了全模态模型的显著优势。