Command Palette
Search for a command to run...

摘要
我们推出 Ling 2.0,这是一个以“每一次激活均提升推理能力”为核心原则构建的、面向系列化推理任务的语言基础模型。Ling 2.0 在统一的专家混合(Mixture-of-Experts, MoE)架构下,可从数十亿参数扩展至一万亿参数,强调高稀疏性、跨尺度一致性以及由实证缩放定律指导的高效性。该系列包含三个非思考型(指令型)模型:Ling-mini-2.0、Ling-flash-2.0 和 Ling-1T,参数规模从 160 亿到一万亿不等,相比密集模型,其活跃计算效率最高提升达 7 倍。Ling 2.0 在模型架构、预训练、后训练及基础设施层面实现了协同创新:采用高稀疏 MoE 架构并结合多任务提示(MTP)以实现高效推理;引入面向推理优化的数据集与中段训练中的思维链(CoT)激活机制;采用基于强化学习的微调方法(DFT、Evo-CoT);并实现全规模 FP8 训练与细粒度异构流水线。在万亿参数规模下,Ling-1T 建立了推理准确率与计算效率之间的全新帕累托前沿,证明了当稀疏激活机制与推理目标合理对齐时,可实现可扩展且高效的智能系统。总体而言,Ling 2.0 为未来推理与思考类模型的发展提供了一个连贯、开放且高效的基础设施,也为基于相同基础构建的 Ring 系列模型奠定了坚实基础。