HyperAI超神经

我们推出来自“荔枝”（Lychee）系列的Uni-MoE 2.0。作为一款完全开源的通用多模态大模型（Omnimodal Large Model, OLM），Uni-MoE 2.0在以语言为中心的多模态理解、推理与生成能力方面，显著推进了“荔枝”系列Uni-MoE的技术演进。基于Qwen2.5-7B稠密架构，我们从零开始构建了Uni-MoE-2.0-Omni，其核心创新体现在三大方面：动态容量的专家混合（Mixture-of-Experts, MoE）设计、结合迭代强化学习策略的渐进式训练方法，以及精心设计的多模态数据匹配技术。该模型具备全模态理解能力，可生成图像、文本与语音。在架构层面，我们提出的新型MoE框架通过共享专家、路由专家与空（null）专家的协同机制，在处理10类跨模态输入时，实现了计算效率与模型能力之间的良好平衡；同时，所提出的全模态3D旋转位置编码（Omni-Modality 3D RoPE）有效保障了自注意力机制中时空维度上的跨模态对齐。在训练策略方面，模型在完成跨模态预训练后，采用渐进式监督微调（Supervised Fine-Tuning, SFT）策略，逐步激活特定模态的专家模块，并通过均衡的数据构成与迭代式GSPO-DPO（Guided Self-Play Optimization with DPO）方法，显著提升了强化学习训练的稳定性，强化了模型的推理能力。在数据层面，基础模型在约750亿个token的开源多模态数据上进行训练，特别引入了专用于语音与图像生成的特殊标记（tokens），使模型能够通过语言线索条件化输出，从而有效学习生成任务。在85项基准测试中的广泛评估表明，本模型在性能上达到或接近当前领先多模态大模型的最先进水平（SOTA），在76项基准中，有超过50项超越了训练数据量高达1.2万亿token的Qwen2.5-Omni。关键优势包括：视频理解能力提升7%（平均8项任务）、全模态理解能力提升7%（平均4项任务）、视听推理能力提升4%。此外，模型在长时语音处理方面取得显著进展（字错误率WER降低4.2%），并在低级图像处理与可控生成任务中，于5项关键指标上位居前列。

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Yunxin Li Xinyu Chen Shenyuan Jiang Haoyuan Shi Zhenyu Liu Xuanyu Zhang Nanhao Deng Zhenran Xu Yicheng Ma Meishan Zhang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

Uni-MoE-2.0-Omni：基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展

Yunxin Li Xinyu Chen Shenyuan Jiang Haoyuan Shi Zhenyu Liu Xuanyu Zhang Nanhao Deng Zhenran Xu Yicheng Ma Meishan Zhang2 more

摘要

用 AI 构建 AI

Hyper Newsletters

Yunxin Li Xinyu Chen Shenyuan Jiang Haoyuan Shi Zhenyu Liu Xuanyu Zhang Nanhao Deng Zhenran Xu Yicheng Ma Meishan Zhang