Command Palette

Search for a command to run...

7 天前

Uni-MoE-2.0-Omni:基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Uni-MoE-2.0-Omni:基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

摘要

我们推出来自“荔枝”(Lychee)系列的Uni-MoE 2.0。作为一款完全开源的通用多模态大模型(Omnimodal Large Model, OLM),Uni-MoE 2.0在以语言为中心的多模态理解、推理与生成能力方面,显著推进了“荔枝”系列Uni-MoE的技术演进。基于Qwen2.5-7B稠密架构,我们从零开始构建了Uni-MoE-2.0-Omni,其核心创新体现在三大方面:动态容量的专家混合(Mixture-of-Experts, MoE)设计、结合迭代强化学习策略的渐进式训练方法,以及精心设计的多模态数据匹配技术。该模型具备全模态理解能力,可生成图像、文本与语音。在架构层面,我们提出的新型MoE框架通过共享专家、路由专家与空(null)专家的协同机制,在处理10类跨模态输入时,实现了计算效率与模型能力之间的良好平衡;同时,所提出的全模态3D旋转位置编码(Omni-Modality 3D RoPE)有效保障了自注意力机制中时空维度上的跨模态对齐。在训练策略方面,模型在完成跨模态预训练后,采用渐进式监督微调(Supervised Fine-Tuning, SFT)策略,逐步激活特定模态的专家模块,并通过均衡的数据构成与迭代式GSPO-DPO(Guided Self-Play Optimization with DPO)方法,显著提升了强化学习训练的稳定性,强化了模型的推理能力。在数据层面,基础模型在约750亿个token的开源多模态数据上进行训练,特别引入了专用于语音与图像生成的特殊标记(tokens),使模型能够通过语言线索条件化输出,从而有效学习生成任务。在85项基准测试中的广泛评估表明,本模型在性能上达到或接近当前领先多模态大模型的最先进水平(SOTA),在76项基准中,有超过50项超越了训练数据量高达1.2万亿token的Qwen2.5-Omni。关键优势包括:视频理解能力提升7%(平均8项任务)、全模态理解能力提升7%(平均4项任务)、视听推理能力提升4%。此外,模型在长时语音处理方面取得显著进展(字错误率WER降低4.2%),并在低级图像处理与可控生成任务中,于5项关键指标上位居前列。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供