Command Palette
Search for a command to run...

摘要
我们推出来自“荔枝”(Lychee)系列的Uni-MoE 2.0。作为一款完全开源的通用多模态大模型(Omnimodal Large Model, OLM),Uni-MoE 2.0在以语言为中心的多模态理解、推理与生成能力方面,显著推进了“荔枝”系列Uni-MoE的技术演进。基于Qwen2.5-7B稠密架构,我们从零开始构建了Uni-MoE-2.0-Omni,其核心创新体现在三大方面:动态容量的专家混合(Mixture-of-Experts, MoE)设计、结合迭代强化学习策略的渐进式训练方法,以及精心设计的多模态数据匹配技术。该模型具备全模态理解能力,可生成图像、文本与语音。在架构层面,我们提出的新型MoE框架通过共享专家、路由专家与空(null)专家的协同机制,在处理10类跨模态输入时,实现了计算效率与模型能力之间的良好平衡;同时,所提出的全模态3D旋转位置编码(Omni-Modality 3D RoPE)有效保障了自注意力机制中时空维度上的跨模态对齐。在训练策略方面,模型在完成跨模态预训练后,采用渐进式监督微调(Supervised Fine-Tuning, SFT)策略,逐步激活特定模态的专家模块,并通过均衡的数据构成与迭代式GSPO-DPO(Guided Self-Play Optimization with DPO)方法,显著提升了强化学习训练的稳定性,强化了模型的推理能力。在数据层面,基础模型在约750亿个token的开源多模态数据上进行训练,特别引入了专用于语音与图像生成的特殊标记(tokens),使模型能够通过语言线索条件化输出,从而有效学习生成任务。在85项基准测试中的广泛评估表明,本模型在性能上达到或接近当前领先多模态大模型的最先进水平(SOTA),在76项基准中,有超过50项超越了训练数据量高达1.2万亿token的Qwen2.5-Omni。关键优势包括:视频理解能力提升7%(平均8项任务)、全模态理解能力提升7%(平均4项任务)、视听推理能力提升4%。此外,模型在长时语音处理方面取得显著进展(字错误率WER降低4.2%),并在低级图像处理与可控生成任务中,于5项关键指标上位居前列。